Python DQNAgent.policy Examples

Programming Language: Python

Namespace/Package Name: rl.agents.dqn

Class/Type: DQNAgent

Method/Function: policy

Examples at hotexamples.com: 2

Python DQNAgent.policy - 2 examples found. These are the top rated real world Python examples of rl.agents.dqn.DQNAgent.policy extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

DQNAgent(30)

compile(30)

load_weights(30)

fit(30)

save_weights(30)

test(30)

forward(7)

processor(3)

target_model(3)

compute_batch_q_values(3)

compute_q_values(2)

test_policy(2)

backward(2)

training(2)

policy(2)

select_action(1)

save_model(1)

reset_states(1)

replay(1)

remember(1)

reload_memory(1)

reload(1)

model(1)

process_state_batch(1)

modelfile(1)

X(1)

memoryfile(1)

learning(1)

get_config(1)

enable_dueling_network(1)

cmopile(1)

act(1)

_build_model(1)

__init__(1)

Y(1)

update_target_model(1)

Example #1

Show file

File: drl_main.py Project: mdheller/costar_plan

    checkpoint_weights_filename = 'dqn_' + args.env_name + '_weights_{step}.h5f'
    log_filename = 'dqn_{}_log.json'.format(args.env_name)
    callbacks = [
        ModelIntervalCheckpoint(checkpoint_weights_filename, interval=250000)
    ]
    callbacks += [FileLogger(log_filename, interval=100)]
    dqn.fit(env, callbacks=callbacks, nb_steps=1750000, log_interval=10000)

    # After training is done, we save the final weights one more time.
    dqn.save_weights(weights_filename, overwrite=True)

    # Finally, evaluate our algorithm for 10 episodes.
    dqn.test(env, nb_episodes=10, visualize=False)
elif args.mode == 'test':
    weights_filename = 'dqn_{}_weights.h5f'.format(args.env_name)
    if args.weights:
        weights_filename = args.weights
    dqn.load_weights(weights_filename)
    dqn.test(env, nb_episodes=10, visualize=True)

elif args.mode == 'explore':
    home = expanduser("~")
    path = home + '/.costar/data/test'
    callbacks = [BinaryDataLogger(path, interval=-1)]
    #callbacks = [TrainEpisodeLogger1()]
    dqn.policy = RandomPolicy()
    dqn.fit(env,
            visualize=False,
            callbacks=callbacks,
            nb_steps=1750000,
            log_interval=10000)

Example #2

Show file

File: rl-test.py Project: SmallBet/rl_autotrade_trial

                              value_test=.05,
                              nb_steps=5000)
#policy = EpsGreedyQPolicy(10)
#policy = BoltzmannQPolicy()
dqn = DQNAgent(model=model,
               nb_actions=num_actions,
               memory=memory,
               nb_steps_warmup=window * 3,
               policy=policy)
dqn.compile(Adam(lr=1e-3), metrics=['mae'])
dqn.enable_dueling_network = True
if model_exist:
    dqn.load_weights(model_path)
    dqn.policy = LinearAnnealedPolicy(EpsGreedyQPolicy(),
                                      attr='eps',
                                      value_max=.5,
                                      value_min=.1,
                                      value_test=.05,
                                      nb_steps=5000)

env.set_data_interval(train_start, train_end)
train_history = dqn.fit(env,
                        nb_steps=5000,
                        visualize=False,
                        verbose=2,
                        action_repetition=5)
env.set_data_interval(train_start, test_end)
print('Whole')
train_history = dqn.test(env, nb_episodes=2)
dqn.save_weights(model_path, overwrite=True)
env.save_action_plot('action_validate.csv')
plt.axvline(x=train_end - train_start)