Python QLearner.move Exemples

Langage de programmation: Python

Espace de nommage/Pack: qlearner

Class/Type: QLearner

Méthode/Fonction: move

Exemples au hotexamples.com: 2

Python QLearner.move - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de qlearner.QLearner.move extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

QLearner(11)

execute(3)

set_r_value(3)

get_policy(3)

train(2)

move(2)

query(1)

retrain(1)

rollout(1)

run_learning_trial(1)

run_simulation_trial(1)

Q(1)

s(1)

save_model(1)

set_initial_state(1)

set_invalid(1)

test(1)

train_step(1)

update(1)

save(1)

load_maze(1)

next_state(1)

compute_action(1)

a(1)

add_tensorboard_ops(1)

animate(1)

choose_best_action(1)

clear(1)

clear_states(1)

display_Q(1)

guide(1)

display_R(1)

episodes(1)

get_action(1)

get_reward(1)

get_states(1)

goal(1)

update_target_network(1)

Méthodes fréquemment utilisées

QLearner (11)

execute (3)

set_r_value (3)

get_policy (3)

train (2)

move (2)

query (1)

retrain (1)

rollout (1)

run_learning_trial (1)

Méthodes fréquemment utilisées

run_simulation_trial (1)

Q (1)

s (1)

save_model (1)

set_initial_state (1)

set_invalid (1)

test (1)

train_step (1)

update (1)

save (1)

load_maze (1)

next_state (1)

compute_action (1)

a (1)

add_tensorboard_ops (1)

animate (1)

choose_best_action (1)

clear (1)

clear_states (1)

display_Q (1)

Méthodes fréquemment utilisées

load_maze (1)

next_state (1)

compute_action (1)

a (1)

add_tensorboard_ops (1)

animate (1)

choose_best_action (1)

clear (1)

clear_states (1)

display_Q (1)

guide (1)

display_R (1)

episodes (1)

get_action (1)

get_reward (1)

get_states (1)

goal (1)

update_target_network (1)

Méthodes fréquemment utilisées

guide (1)

display_R (1)

episodes (1)

get_action (1)

get_reward (1)

get_states (1)

goal (1)

update_target_network (1)

Exemple #1

0

Afficher le fichier

Fichier : session1a.py Projet : DLthree/mlfun

diff = diff[tim_sux:chris_sux,:,0] indices = np.where(diff == 200) y = np.mean(indices[0]) + tim_sux x = np.mean(indices[1]) # chris_sux return (x,y) env = gym.make('Breakout-v0') learner = QLearner(num_states=500, num_actions=env.action_space.n) for i_episode in range(2000): observation = env.reset() action = learner.set_initial_state(0) prev = observation total_reward = 0 for t in range(10000): # env.render() prev = observation observation, reward, done, info = env.step(action) total_reward += reward paddle = find_paddle(observation) x,y = find_ball(prev, observation) try: feature = int(paddle - x) action = learner.move(feature, reward) except ValueError: feature = 250 action = learner.move(feature, reward, force_random=True) if done: print("Episode finished after {} timesteps. {} reward".format(t+1, total_reward)) break

Exemple #2

0

Afficher le fichier

Fichier : session1.py Projet : DLthree/mlfun

env = gym.make('Breakout-v0') learner = QLearner(num_states=200, num_actions=env.action_space.n) for i_episode in range(2000): observation = env.reset() action = learner.set_initial_state(0) prev = observation for t in range(10000): env.render() # print(observation) paddle = find_paddle(observation) x,y = find_ball(prev, observation) try: feature = int(paddle - x) if feature > 15: feature = 15 if feature < -15: feature = -15 except ValueError: action = env.action_space.sample() feature = 100 # import pdb; pdb.set_trace() # action = env.action_space.sample() prev = observation observation, reward, done, info = env.step(action) print feature, action action = learner.move(feature, reward) if done: print("Episode finished after {} timesteps".format(t+1)) break