Python QLearning.greedy_probability_policy Exemples

Langage de programmation: Python

Espace de nommage/Pack: q_learning

Class/Type: QLearning

Méthode/Fonction: greedy_probability_policy

Exemples au hotexamples.com: 2

Python QLearning.greedy_probability_policy - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de q_learning.QLearning.greedy_probability_policy extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

QLearning(30)

update(4)

run(3)

train(2)

load_table(2)

learn(2)

greedy_probability_policy(2)

get_policy(2)

get_action(2)

perform_sim_step(2)

set_general_state_action_values(2)

save_q_matrix(2)

choose_action(2)

action_to_maximise_q(2)

choose(2)

train_model(1)

reset_state(1)

plot_progress(1)

predict(1)

previous_action_idx(1)

previous_digitized_state(1)

q_table(1)

read_q_matrix(1)

update_state_action_function(1)

reset_epsilon(1)

reset_reward(1)

update_reward(1)

update_Qtable(1)

update_q_value(1)

transfer_model(1)

run_multiple_episodes(1)

sample_from_experience(1)

update_Q(1)

save(1)

save_experience(1)

save_q_model(1)

save_table(1)

select_action(1)

solve(1)

step(1)

test(1)

plot_avg_cost(1)

lr(1)

perform_lr_decay(1)

episode_companies_3(1)

action_values(1)

add_new_state(1)

assimilar(1)

best_action(1)

calc_new_q_value(1)

Méthodes fréquemment utilisées

QLearning (30)

update (4)

run (3)

train (2)

load_table (2)

learn (2)

greedy_probability_policy (2)

get_policy (2)

get_action (2)

perform_sim_step (2)

Méthodes fréquemment utilisées

set_general_state_action_values (2)

save_q_matrix (2)

choose_action (2)

action_to_maximise_q (2)

choose (2)

train_model (1)

reset_state (1)

plot_progress (1)

predict (1)

previous_action_idx (1)

previous_digitized_state (1)

q_table (1)

read_q_matrix (1)

update_state_action_function (1)

reset_epsilon (1)

reset_reward (1)

update_reward (1)

update_Qtable (1)

update_q_value (1)

transfer_model (1)

Méthodes fréquemment utilisées

previous_digitized_state (1)

q_table (1)

read_q_matrix (1)

update_state_action_function (1)

reset_epsilon (1)

reset_reward (1)

update_reward (1)

update_Qtable (1)

update_q_value (1)

transfer_model (1)

run_multiple_episodes (1)

sample_from_experience (1)

update_Q (1)

save (1)

save_experience (1)

save_q_model (1)

save_table (1)

select_action (1)

solve (1)

step (1)

test (1)

plot_avg_cost (1)

lr (1)

perform_lr_decay (1)

episode_companies_3 (1)

action_values (1)

add_new_state (1)

assimilar (1)

best_action (1)

calc_new_q_value (1)

Méthodes fréquemment utilisées

run_multiple_episodes (1)

sample_from_experience (1)

update_Q (1)

save (1)

save_experience (1)

save_q_model (1)

save_table (1)

select_action (1)

solve (1)

step (1)

test (1)

plot_avg_cost (1)

lr (1)

perform_lr_decay (1)

episode_companies_3 (1)

action_values (1)

add_new_state (1)

assimilar (1)

best_action (1)

calc_new_q_value (1)

calculate_reward (1)

curr_episode (1)

decide_on_action (1)

decreasing_learning_rate (1)

define_state (1)

digitize_state (1)

dump (1)

episode (1)

episode_companies_2 (1)

episode_end (1)

perform_epsilon_decay (1)

episode_start (1)

epsilon (1)

fit (1)

get_best_action (1)

get_highest_tile_value (1)

get_max_q (1)

greedy_policy (1)

is_calculate_next_action (1)

is_set_duration (1)

Exemple #1

0

Afficher le fichier

def q_learning_greedy_probability_policy(): env = gym.make('FrozenLake-v0') q_learning = QLearning(env.action_space.n, env.observation_space.n, epsilon=0.1, learning_rate=0.1) q_learning.set_general_state_action_values([0.5, 1, 0.5, 0.5]) episode_rewards = [] all_over_reward = 0.0 for i_episode in range(7000): # We start a new episode with have to reset the environment and stats observation = env.reset() accumulated_reward = 0.0 for t in range(100): # Show current state # env.render() # Choose action based on current experience action = q_learning.greedy_probability_policy(observation) # Save previous state, and commit action, resulting new current state previous_observation = observation observation, reward, done, info = env.step(action) # Accumulate more reward accumulated_reward += reward # Train algorithm based on new experience q_learning.update_state_action_function(previous_observation, action, reward, observation) # if done: print "Episode finished after {} timesteps".format(t + 1) print "Total reward for episode %i: %i" % (i_episode, accumulated_reward) all_over_reward += accumulated_reward episode_rewards.append(accumulated_reward) break plot = Plot() plot.plot_evolution(episode_rewards) print q_learning.q_table q_learning.write_q_function_dump()

Exemple #2

0

Afficher le fichier

Fichier : 2c.py Projet : klizter/QLearningExercise

def greedy_probability_policy(): env = gym.make('FrozenLake-v0') q_learning = QLearning(env.action_space.n, env.observation_space.n, 0.9) q_learning.set_general_state_action_values([0.5, 1, 0.5, 0.5]) for i_episode in range(20): observation = env.reset() for t in range(100): env.render() print(observation) action = q_learning.greedy_probability_policy(observation) observation, reward, done, info = env.step(action) if done: print "Episode finished after {} timesteps".format(t + 1) break