Python DQLearner示例

编程语言: Python

命名空间/包名称: vae.vae_dqn.dq_learner

方法/功能: DQLearner

hotexamples.com的示例: 3

Python DQLearner - 已找到3个示例。这些是从开源项目中提取的最受好评的vae.vae_dqn.dq_learner.DQLearner现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

def train_double_dqn(env, num_actions):
    results_dir = './results/double_dqn/wind_tunnel'

    training_epsilon = 0.01
    test_epsilon = 0.001

    frame_history = 1
    dqn = atari_dqn.AtariDQN(frame_history, num_actions)
    agent = dq_learner.DQLearner(dqn,
                                 num_actions,
                                 frame_history=frame_history,
                                 epsilon_end=training_epsilon)

    train(agent, env, test_epsilon, results_dir)

示例#2

显示文件

def train_dqn(env, num_actions):
    results_dir = './results/dqn/coin_game'

    training_epsilon = 0.1
    test_epsilon = 0.05

    frame_history = 1
    dqn = atari_dqn.AtariDQN(frame_history, num_actions, shared_bias=False)
    agent = dq_learner.DQLearner(dqn,
                                 num_actions,
                                 target_copy_freq=10000,
                                 epsilon_end=training_epsilon,
                                 double=False,
                                 frame_history=frame_history)
    train(agent, env, test_epsilon, results_dir)

示例#3

显示文件

def train_tabular_dqn(env, num_actions):
    results_dir = './results/dqn/tab_coin_game_lr0.0025_rp10000'
    training_epsilon = 0.1
    test_epsilon = 0.05
    n = 3
    frame_history = 1
    dqn = tabular_dqn.TabularDQN(n,
                                 frame_history,
                                 num_actions,
                                 shared_bias=False)
    agent = dq_learner.DQLearner(dqn,
                                 num_actions,
                                 target_copy_freq=3000,
                                 epsilon_end=training_epsilon,
                                 double=False,
                                 frame_history=frame_history,
                                 learning_rate=0.0025,
                                 replay_start_size=10000,
                                 epsilon_steps=100000.,
                                 replay_memory_size=10001)
    train(agent, env, test_epsilon, results_dir)