Python all_argmax примеры использования

Язык программирования: Python

Пространство имен/Пакет: pybrain.utilities

Метод/Функция: all_argmax

Примеров на hotexamples.com: 4

Python all_argmax - 4 примера найдено. Это лучшие примеры Python кода для pybrain.utilities.all_argmax, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Пример #1

Показать файл

def greedyQPolicy(Qs):
    """ Find the greedy deterministic policy, 
    given the Q-values. """
    dim = len(Qs)
    numA = len(Qs[0])
    policy = zeros((dim, numA))
    for si in range(dim):
        actions = all_argmax(Qs[si])
        for a in actions:
            policy[si, a] = 1. / len(actions)
    return policy

Пример #2

Показать файл

Файл: policyiteration.py Проект: Angeliqe/pybrain

def greedyQPolicy(Qs):
    """ Find the greedy deterministic policy, 
    given the Q-values. """
    dim = len(Qs)
    numA = len(Qs[0])
    policy = zeros((dim, numA))
    for si in range(dim):
        actions = all_argmax(Qs[si])
        for a in actions:
            policy[si, a] = 1. / len(actions)    
    return policy

Пример #3

Показать файл

def greedyPolicy(Ts, R, discountFactor, V):
    """ Find the greedy policy, (soft tie-breaking)
    given a value function and full transition model. """
    dim = len(V)
    numA = len(Ts)
    Vnext = V * discountFactor + R
    policy = zeros((dim, numA))
    for si in range(dim):
        actions = all_argmax([dot(T[si, :], Vnext) for T in Ts])
        for a in actions:
            policy[si, a] = 1. / len(actions)
    return policy, collapsedTransitions(Ts, policy)

Пример #4

Показать файл

Файл: policyiteration.py Проект: Angeliqe/pybrain

def greedyPolicy(Ts, R, discountFactor, V):
    """ Find the greedy policy, (soft tie-breaking)
    given a value function and full transition model. """
    dim = len(V)
    numA = len(Ts)
    Vnext = V*discountFactor+R
    policy = zeros((dim, numA))
    for si in range(dim):
        actions = all_argmax([dot(T[si, :], Vnext) for T in Ts])
        for a in actions:
            policy[si, a] = 1. / len(actions)        
    return policy, collapsedTransitions(Ts, policy)