Python QLearner.get_reward примеры использования

Язык программирования: Python

Пространство имен/Пакет: qlearner

Класс/Тип: QLearner

Метод/Функция: get_reward

Примеров на hotexamples.com: 1

Python QLearner.get_reward - 1 пример найден. Это лучшие примеры Python кода для qlearner.QLearner.get_reward, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

QLearner(11)

execute(3)

set_r_value(3)

get_policy(3)

train(2)

move(2)

query(1)

retrain(1)

rollout(1)

run_learning_trial(1)

run_simulation_trial(1)

Q(1)

s(1)

save_model(1)

set_initial_state(1)

set_invalid(1)

test(1)

train_step(1)

update(1)

save(1)

load_maze(1)

next_state(1)

compute_action(1)

a(1)

add_tensorboard_ops(1)

animate(1)

choose_best_action(1)

clear(1)

clear_states(1)

display_Q(1)

guide(1)

display_R(1)

episodes(1)

get_action(1)

get_reward(1)

get_states(1)

goal(1)

update_target_network(1)

Пример #1

Показать файл

Файл: test_q.py Проект: jon--lee/daggermdp

value_iter_pi = mdp.pi

plotter.plot_state_actions(value_iter_pi, rewards = grid.reward_states, sinks = grid.sink_states)


value_iter_data = np.zeros([TRIALS, ITER])
classic_q_data = np.zeros([TRIALS, ITER])

for t in range(TRIALS):
    mdp.load_policy(filename='scen1.p')
    q = QLearner(grid, mdp, moves=40)
    r = 0.0
    for i in range(ITER):
        q.guide()
        r = r + q.get_reward() / (ITER)
    print "Value iter reward: " + str(r)
    value_iter_data[t,:] = np.zeros(ITER) + r

    r = 0.0
    
    q.clear_states()
    mdp.pi = QPolicy(q)    
    a = Analysis(W, H, ITER, rewards=rewards, sinks=sinks, desc='Q policy')
    for i in range(ITER * SAMP):
        q.rollout()
        r = r + q.get_reward() / (ITER * SAMP)
    print "Q learn reward: " + str(r)
    if t == 0:
        a.count_states(q.get_states())
        a.show_states()