Python eval_policy示例

编程语言: Python

命名空间/包名称: research.estop.pendulum.run_ddpg

方法/功能: eval_policy

hotexamples.com的示例: 2

Python eval_policy - 已找到2个示例。这些是从开源项目中提取的最受好评的research.estop.pendulum.run_ddpg.eval_policy现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

  def callback(info):
    episode = info['episode']
    params[0] = info["optimizer"].value
    tracking_params[0] = info["tracking_params"]

    policy_value = run_ddpg.eval_policy(callback_rngs[episode], info["optimizer"].value[0])

    train_reward_per_episode.append(info["reward"])
    policy_value_per_episode.append(policy_value)
    elapsed_per_episode.append(info["elapsed"])

示例#2

显示文件

  def callback(info):
    episode = info['episode']
    reward = info['reward']

    current_actor_params = info["optimizer"].value[0]
    policy_value = run_ddpg.eval_policy(callback_rngs[episode],
                                        current_actor_params)

    print(f"Episode {episode}, "
          f"episode_length = {info['episode_length']}, "
          f"reward = {reward}, "
          f"policy_value = {policy_value}, "
          f"elapsed = {info['elapsed']}")

    train_reward_per_episode.append(reward)
    policy_value_per_episode.append(policy_value)
    episode_lengths.append(info["episode_length"])