Python DQNAgent.policyの例

プログラミング言語: Python

名前空間/パッケージ名: rl.agents.dqn

クラス/型: DQNAgent

メソッド/関数: policy

hotexamples.comのコード掲載数: 2

Python DQNAgent.policy - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのrl.agents.dqn.DQNAgent.policyの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

DQNAgent(30)

compile(30)

load_weights(30)

fit(30)

save_weights(30)

test(30)

forward(7)

processor(3)

target_model(3)

compute_batch_q_values(3)

compute_q_values(2)

test_policy(2)

backward(2)

training(2)

policy(2)

select_action(1)

save_model(1)

reset_states(1)

replay(1)

remember(1)

reload_memory(1)

reload(1)

model(1)

process_state_batch(1)

modelfile(1)

X(1)

memoryfile(1)

learning(1)

get_config(1)

enable_dueling_network(1)

cmopile(1)

act(1)

_build_model(1)

__init__(1)

Y(1)

update_target_model(1)

コード例 #1

ファイルを表示

ファイル: drl_main.py プロジェクト: mdheller/costar_plan

    checkpoint_weights_filename = 'dqn_' + args.env_name + '_weights_{step}.h5f'
    log_filename = 'dqn_{}_log.json'.format(args.env_name)
    callbacks = [
        ModelIntervalCheckpoint(checkpoint_weights_filename, interval=250000)
    ]
    callbacks += [FileLogger(log_filename, interval=100)]
    dqn.fit(env, callbacks=callbacks, nb_steps=1750000, log_interval=10000)

    # After training is done, we save the final weights one more time.
    dqn.save_weights(weights_filename, overwrite=True)

    # Finally, evaluate our algorithm for 10 episodes.
    dqn.test(env, nb_episodes=10, visualize=False)
elif args.mode == 'test':
    weights_filename = 'dqn_{}_weights.h5f'.format(args.env_name)
    if args.weights:
        weights_filename = args.weights
    dqn.load_weights(weights_filename)
    dqn.test(env, nb_episodes=10, visualize=True)

elif args.mode == 'explore':
    home = expanduser("~")
    path = home + '/.costar/data/test'
    callbacks = [BinaryDataLogger(path, interval=-1)]
    #callbacks = [TrainEpisodeLogger1()]
    dqn.policy = RandomPolicy()
    dqn.fit(env,
            visualize=False,
            callbacks=callbacks,
            nb_steps=1750000,
            log_interval=10000)

コード例 #2

ファイルを表示

ファイル: rl-test.py プロジェクト: SmallBet/rl_autotrade_trial

                              value_test=.05,
                              nb_steps=5000)
#policy = EpsGreedyQPolicy(10)
#policy = BoltzmannQPolicy()
dqn = DQNAgent(model=model,
               nb_actions=num_actions,
               memory=memory,
               nb_steps_warmup=window * 3,
               policy=policy)
dqn.compile(Adam(lr=1e-3), metrics=['mae'])
dqn.enable_dueling_network = True
if model_exist:
    dqn.load_weights(model_path)
    dqn.policy = LinearAnnealedPolicy(EpsGreedyQPolicy(),
                                      attr='eps',
                                      value_max=.5,
                                      value_min=.1,
                                      value_test=.05,
                                      nb_steps=5000)

env.set_data_interval(train_start, train_end)
train_history = dqn.fit(env,
                        nb_steps=5000,
                        visualize=False,
                        verbose=2,
                        action_repetition=5)
env.set_data_interval(train_start, test_end)
print('Whole')
train_history = dqn.test(env, nb_episodes=2)
dqn.save_weights(model_path, overwrite=True)
env.save_action_plot('action_validate.csv')
plt.axvline(x=train_end - train_start)