Python QLearner.run_simulation_trial примеры использования

Язык программирования: Python

Пространство имен/Пакет: qlearner

Класс/Тип: QLearner

Метод/Функция: run_simulation_trial

Примеров на hotexamples.com: 2

Python QLearner.run_simulation_trial - 2 примера найдено. Это лучшие примеры Python кода для qlearner.QLearner.run_simulation_trial, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

QLearner(11)

execute(3)

set_r_value(3)

get_policy(3)

train(2)

move(2)

query(1)

retrain(1)

rollout(1)

run_learning_trial(1)

run_simulation_trial(1)

Q(1)

s(1)

save_model(1)

set_initial_state(1)

set_invalid(1)

test(1)

train_step(1)

update(1)

save(1)

load_maze(1)

next_state(1)

compute_action(1)

a(1)

add_tensorboard_ops(1)

animate(1)

choose_best_action(1)

clear(1)

clear_states(1)

display_Q(1)

guide(1)

display_R(1)

episodes(1)

get_action(1)

get_reward(1)

get_states(1)

goal(1)

update_target_network(1)

Пример #1

Показать файл

Файл: main.py Проект: mqtlam/osu-cs533

avg_reward_list = []

for e, epsilon in enumerate(epsilon_list):
    print "Epsilon: {0}".format(epsilon)

    qlearner = QLearner(mdp1, initial_state1, epsilon=epsilon, alpha=learning_rate)

    epoch_list.append(range(num_learning_epochs))
    avg_reward_list.append([])
    for epoch in epoch_list[e]:
        for trial in range(num_learning_trials):
            qlearner.run_learning_trial()

        avg_reward = 0
        for trial in range(num_simulation_trials):
            (total_reward, state_seq, action_seq) = qlearner.run_simulation_trial()
            avg_reward += total_reward
        avg_reward = 1.*avg_reward/num_simulation_trials
        avg_reward_list[e].append(avg_reward)
        print "MDP1 epoch {0}: {1}".format(epoch, avg_reward)

Plot.plot_multiple(epoch_list, avg_reward_list, [str(e) for e in epsilon_list], 'epsilon', 'MDP1 Learning: Epsilon', 'mdp1_epsilon_plot.png')
print


### PART III: MDP 1 alpha experiments
epsilon = 0.25
learning_rate_list = [0.001, 0.01, 0.1, 1.0]
epoch_list = []
avg_reward_list = []

Пример #2

Показать файл

Файл: main.py Проект: mg56648/parkingpolicy_reinforcement_learning

    qlearner = QLearner(mdp1,
                        initial_state1,
                        epsilon=epsilon,
                        alpha=learning_rate)

    epoch_list.append(range(num_learning_epochs))
    avg_reward_list.append([])
    for epoch in epoch_list[e]:
        for trial in range(num_learning_trials):
            qlearner.run_learning_trial()

        avg_reward = 0
        for trial in range(num_simulation_trials):
            (total_reward, state_seq,
             action_seq) = qlearner.run_simulation_trial()
            avg_reward += total_reward
        avg_reward = 1. * avg_reward / num_simulation_trials
        avg_reward_list[e].append(avg_reward)
        print "MDP1 epoch {0}: {1}".format(epoch, avg_reward)

Plot.plot_multiple(epoch_list, avg_reward_list, [str(e) for e in epsilon_list],
                   'epsilon', 'MDP1 Learning: Epsilon',
                   'mdp1_epsilon_plot.png')
print

### PART III: MDP 1 alpha experiments
epsilon = 0.25
learning_rate_list = [0.001, 0.01, 0.1, 1.0]
epoch_list = []
avg_reward_list = []