Python DqnAgent.policy示例

编程语言: Python

命名空间/包名称: tf_agents.agents.dqn.dqn_agent

类/类型: DqnAgent

方法/功能: policy

hotexamples.com的示例: 2

Python DqnAgent.policy - 已找到2个示例。这些是从开源项目中提取的最受好评的tf_agents.agents.dqn.dqn_agent.DqnAgent.policy现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

DqnAgent(15)

initialize(7)

train(7)

policy(2)

_target_q_network(1)

示例#1

显示文件

文件： ReTrain.py 项目： lukepolson/UVICMLCC

# Computes epsilon for epsilon greedy policy given the training step
epsilon_fn = keras.optimizers.schedules.PolynomialDecay(
    initial_learning_rate=0.01, # initial ε
    decay_steps=epsilon_decay_steps, 
    end_learning_rate=epsilon_final) # final ε

agent = DqnAgent(tf_env.time_step_spec(),
                 tf_env.action_spec(),
                 q_network=q_net,
                 optimizer=optimizer,
                 target_update_period=target_update_period, 
                 td_errors_loss_fn=keras.losses.Huber(reduction="none"),
                 gamma=discount_factor, # discount factor
                 train_step_counter=train_step,
                 epsilon_greedy=lambda: epsilon_fn(train_step))
agent.policy = tf.compat.v2.saved_model.load('../DATA/policy_{}'.format(II))
agent.initialize()

# Speed up as tensorflow function
agent.train = function(agent.train)

## ------------------------------------------------------------------------------
## ------------------------------------------------------------------------------
## ------------------------------------------------------------------------------

replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(
    # Determines the data spec type
    data_spec=agent.collect_data_spec,
    # The number of trajectories added at each step
    batch_size=tf_env.batch_size,
    # This can store 4 million trajectories (note: requires a lot of RAM)

示例#2

显示文件

epsilon_fn = keras.optimizers.schedules.PolynomialDecay(
    initial_learning_rate=1.0, decay_steps=250000, end_learning_rate=0.01)
print("Before Agent")
agent = DqnAgent(tf_env.time_step_spec(),
                 tf_env.action_spec(),
                 q_network=q_net,
                 optimizer=optimizer,
                 target_update_period=2000,
                 td_errors_loss_fn=keras.losses.Huber(reduction="none"),
                 gamma=0.99,
                 train_step_counter=train_step,
                 epsilon_greedy=lambda: epsilon_fn(train_step))

agent.initialize()
if policy != None:
    agent.policy = policy

print("After  Agent.initialize()")

replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(
    data_spec=agent.collect_data_spec,
    batch_size=tf_env.batch_size,
    max_length=100000)
"""
replay_buffer = PyHashedReplayBuffer(
    data_spec = agent.collect_data_spec,
    #batch_size = tf_env.batch_size,
    capacity = 1000000
)
"""
print("After  replay_buffer")