Python QLearner.train примеры использования

Язык программирования: Python

Пространство имен/Пакет: qlearner

Класс/Тип: QLearner

Метод/Функция: train

Примеров на hotexamples.com: 2

Python QLearner.train - 2 примера найдено. Это лучшие примеры Python кода для qlearner.QLearner.train, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

QLearner(11)

execute(3)

set_r_value(3)

get_policy(3)

train(2)

move(2)

query(1)

retrain(1)

rollout(1)

run_learning_trial(1)

run_simulation_trial(1)

Q(1)

s(1)

save_model(1)

set_initial_state(1)

set_invalid(1)

test(1)

train_step(1)

update(1)

save(1)

load_maze(1)

next_state(1)

compute_action(1)

a(1)

add_tensorboard_ops(1)

animate(1)

choose_best_action(1)

clear(1)

clear_states(1)

display_Q(1)

guide(1)

display_R(1)

episodes(1)

get_action(1)

get_reward(1)

get_states(1)

goal(1)

update_target_network(1)

Пример #1

Показать файл

from qlearner import QLearner
import pylab as plt

my_learner = QLearner()
my_learner.load_maze('/u/braun/tlab/QLearner/data/reward_4x4.npy',
                     '/u/braun/tlab/QLearner/data/meta_4x4.txt')

#print ("testing data load\n\n")

#my_learner.display_Q()
#my_learner.display_R()

print("begin training...")

reward = my_learner.train(0.7)

my_learner.display_Q()
my_learner.display_R()

steps = my_learner.test(7)  # 7 foods in 4x4 maze
print("steps")
print(steps)
print("")

plt.hist(reward, 50, normed=1, facecolor='g', alpha=0.75)
plt.xlabel('Episodes required to reach 200')
plt.ylabel('Frequency')
plt.title('Histogram')
plt.show()

Пример #2

Показать файл

Файл: cartpole-main.py Проект: steinarbragi/reinforcement-learning-pa

    # Initialise environment and agent
    wrapper = CartPoleWrapperDiscrete()
    agent = QLearner(wrapper=wrapper, seed=run)

    style.use('fivethirtyeight')

    fig = plt.figure()
    plt.axis([0, args.episodes, 0, 300])
    plt.xlabel('Episodes')
    plt.ylabel('AVG Reward last 50 episodes')

    # For each episode, train the agent on the environment and record the
    # reward of each episode
    for episode in range(num_episodes):
        rewards[episode] = agent.train()
        if (episode % 50) == 0 and episode != 0:
            avg_last = float(sum(rewards[episode - 50:episode])) / 50
            plt.scatter(episode, avg_last)
            plt.pause(0.05)
        # Check if environment is solved
        if wrapper.solved(rewards[:episode]):
            end_episode = episode
            break

    # Record and print performance
    runtime_per_run.append(timer() - start)
    rewards_per_run['run' + str(run)] = rewards
    if end_episode >= 99:
        print('average reward of last 100 episodes of run', run, '=',
              float(sum(rewards[-100:])) / 100)