Python eval_policy примеры использования

Язык программирования: Python

Пространство имен/Пакет: research.estop.pendulum.run_ddpg

Метод/Функция: eval_policy

Примеров на hotexamples.com: 2

Python eval_policy - 2 примера найдено. Это лучшие примеры Python кода для research.estop.pendulum.run_ddpg.eval_policy, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Пример #1

Показать файл

  def callback(info):
    episode = info['episode']
    params[0] = info["optimizer"].value
    tracking_params[0] = info["tracking_params"]

    policy_value = run_ddpg.eval_policy(callback_rngs[episode], info["optimizer"].value[0])

    train_reward_per_episode.append(info["reward"])
    policy_value_per_episode.append(policy_value)
    elapsed_per_episode.append(info["elapsed"])

Пример #2

Показать файл

  def callback(info):
    episode = info['episode']
    reward = info['reward']

    current_actor_params = info["optimizer"].value[0]
    policy_value = run_ddpg.eval_policy(callback_rngs[episode],
                                        current_actor_params)

    print(f"Episode {episode}, "
          f"episode_length = {info['episode_length']}, "
          f"reward = {reward}, "
          f"policy_value = {policy_value}, "
          f"elapsed = {info['elapsed']}")

    train_reward_per_episode.append(reward)
    policy_value_per_episode.append(policy_value)
    episode_lengths.append(info["episode_length"])