Esempi in Python per QLearner.train

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: qlearner

Classe/tipologia: QLearner

Metodo/funzione: train

Esempi su hotexamples.com: 2

QLearner.train in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per qlearner.QLearner.train, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

QLearner(11)

execute(3)

set_r_value(3)

get_policy(3)

train(2)

move(2)

query(1)

retrain(1)

rollout(1)

run_learning_trial(1)

run_simulation_trial(1)

Q(1)

s(1)

save_model(1)

set_initial_state(1)

set_invalid(1)

test(1)

train_step(1)

update(1)

save(1)

load_maze(1)

next_state(1)

compute_action(1)

a(1)

add_tensorboard_ops(1)

animate(1)

choose_best_action(1)

clear(1)

clear_states(1)

display_Q(1)

guide(1)

display_R(1)

episodes(1)

get_action(1)

get_reward(1)

get_states(1)

goal(1)

update_target_network(1)

Esempio n. 1

Mostra file

from qlearner import QLearner
import pylab as plt

my_learner = QLearner()
my_learner.load_maze('/u/braun/tlab/QLearner/data/reward_4x4.npy',
                     '/u/braun/tlab/QLearner/data/meta_4x4.txt')

#print ("testing data load\n\n")

#my_learner.display_Q()
#my_learner.display_R()

print("begin training...")

reward = my_learner.train(0.7)

my_learner.display_Q()
my_learner.display_R()

steps = my_learner.test(7)  # 7 foods in 4x4 maze
print("steps")
print(steps)
print("")

plt.hist(reward, 50, normed=1, facecolor='g', alpha=0.75)
plt.xlabel('Episodes required to reach 200')
plt.ylabel('Frequency')
plt.title('Histogram')
plt.show()

Esempio n. 2

Mostra file

File: cartpole-main.py Progetto: steinarbragi/reinforcement-learning-pa

    # Initialise environment and agent
    wrapper = CartPoleWrapperDiscrete()
    agent = QLearner(wrapper=wrapper, seed=run)

    style.use('fivethirtyeight')

    fig = plt.figure()
    plt.axis([0, args.episodes, 0, 300])
    plt.xlabel('Episodes')
    plt.ylabel('AVG Reward last 50 episodes')

    # For each episode, train the agent on the environment and record the
    # reward of each episode
    for episode in range(num_episodes):
        rewards[episode] = agent.train()
        if (episode % 50) == 0 and episode != 0:
            avg_last = float(sum(rewards[episode - 50:episode])) / 50
            plt.scatter(episode, avg_last)
            plt.pause(0.05)
        # Check if environment is solved
        if wrapper.solved(rewards[:episode]):
            end_episode = episode
            break

    # Record and print performance
    runtime_per_run.append(timer() - start)
    rewards_per_run['run' + str(run)] = rewards
    if end_episode >= 99:
        print('average reward of last 100 episodes of run', run, '=',
              float(sum(rewards[-100:])) / 100)