Python ClippedObjective примеры использования

Язык программирования: Python

Пространство имен/Пакет: trax.rl.rl_layers

Метод/Функция: ClippedObjective

Примеров на hotexamples.com: 2

Python ClippedObjective - 2 примера найдено. Это лучшие примеры Python кода для trax.rl.rl_layers.ClippedObjective, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Пример #1

Показать файл

Файл: actor_critic_joint.py Проект: hugochan/trax

 def ClippedObjectiveMean(
     dist_inputs, values, returns, actions, old_log_probs):
   """Clipped objective from the PPO algorithm."""
   advantages = returns - values
   probs_ratio = rl_layers.ProbsRatio(
       dist_inputs, actions, old_log_probs,
       log_prob_fun=self._policy_dist.log_prob)
   clipped_objective = rl_layers.ClippedObjective(
       probs_ratio, advantages, epsilon=self._epsilon)
   return jnp.mean(clipped_objective)

Пример #2

Показать файл

Файл: actor_critic_joint.py Проект: srush/trax

 def f(dist_inputs, values, returns, actions, old_log_probs):
   """Clipped objective from the PPO algorithm."""
   advantages = returns - values
   probs_ratio = rl_layers.ProbsRatio(
       dist_inputs, actions, old_log_probs,
       log_prob_fun=self._policy_dist.log_prob)
   # advantages are of the shape [128,1,1]
   # and probs_ratio are of the shape [128,1]
   advantages = advantages.squeeze(axis=2)
   clipped_objective = rl_layers.ClippedObjective(
       probs_ratio, advantages, epsilon=self._epsilon)
   return jnp.mean(clipped_objective)