Python QLearning.greedy_probability_policy示例

编程语言: Python

命名空间/包名称: q_learning

类/类型: QLearning

方法/功能: greedy_probability_policy

hotexamples.com的示例: 2

Python QLearning.greedy_probability_policy - 已找到2个示例。这些是从开源项目中提取的最受好评的q_learning.QLearning.greedy_probability_policy现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

QLearning(30)

update(4)

run(3)

train(2)

load_table(2)

learn(2)

greedy_probability_policy(2)

get_policy(2)

get_action(2)

perform_sim_step(2)

set_general_state_action_values(2)

save_q_matrix(2)

choose_action(2)

action_to_maximise_q(2)

choose(2)

train_model(1)

reset_state(1)

plot_progress(1)

predict(1)

previous_action_idx(1)

previous_digitized_state(1)

q_table(1)

read_q_matrix(1)

update_state_action_function(1)

reset_epsilon(1)

reset_reward(1)

update_reward(1)

update_Qtable(1)

update_q_value(1)

transfer_model(1)

run_multiple_episodes(1)

sample_from_experience(1)

update_Q(1)

save(1)

save_experience(1)

save_q_model(1)

save_table(1)

select_action(1)

solve(1)

step(1)

test(1)

plot_avg_cost(1)

lr(1)

perform_lr_decay(1)

episode_companies_3(1)

action_values(1)

add_new_state(1)

assimilar(1)

best_action(1)

calc_new_q_value(1)

示例#1

显示文件

def q_learning_greedy_probability_policy():

    env = gym.make('FrozenLake-v0')
    q_learning = QLearning(env.action_space.n,
                           env.observation_space.n,
                           epsilon=0.1,
                           learning_rate=0.1)
    q_learning.set_general_state_action_values([0.5, 1, 0.5, 0.5])
    episode_rewards = []
    all_over_reward = 0.0
    for i_episode in range(7000):

        # We start a new episode with have to reset the environment and stats
        observation = env.reset()
        accumulated_reward = 0.0

        for t in range(100):

            # Show current state
            # env.render()

            # Choose action based on current experience
            action = q_learning.greedy_probability_policy(observation)

            # Save previous state, and commit action, resulting new current state
            previous_observation = observation
            observation, reward, done, info = env.step(action)

            # Accumulate more reward
            accumulated_reward += reward

            # Train algorithm based on new experience
            q_learning.update_state_action_function(previous_observation,
                                                    action, reward,
                                                    observation)

            #
            if done:
                print "Episode finished after {} timesteps".format(t + 1)
                print "Total reward for episode %i: %i" % (i_episode,
                                                           accumulated_reward)
                all_over_reward += accumulated_reward
                episode_rewards.append(accumulated_reward)
                break

    plot = Plot()
    plot.plot_evolution(episode_rewards)
    print q_learning.q_table
    q_learning.write_q_function_dump()

示例#2

显示文件

文件： 2c.py 项目： klizter/QLearningExercise

def greedy_probability_policy():

    env = gym.make('FrozenLake-v0')
    q_learning = QLearning(env.action_space.n, env.observation_space.n, 0.9)
    q_learning.set_general_state_action_values([0.5, 1, 0.5, 0.5])

    for i_episode in range(20):
        observation = env.reset()
        for t in range(100):
            env.render()
            print(observation)
            action = q_learning.greedy_probability_policy(observation)
            observation, reward, done, info = env.step(action)
            if done:
                print "Episode finished after {} timesteps".format(t + 1)
                break