Ejemplos de ProbsRatio en Python

Lenguaje de programación: Python

Namespace/Package Name: trax.rl.rl_layers

Método / Función: ProbsRatio

Ejemplos en hotexamples.com: 4

Python ProbsRatio - 4 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de trax.rl.rl_layers.ProbsRatio extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Ejemplo n.º 1

Mostrar archivo

 def ClipFraction(dist_inputs, actions, old_log_probs):
     """Probability Ratio Mean from the PPO algorithm."""
     probs_ratio = rl_layers.ProbsRatio(
         dist_inputs,
         actions,
         old_log_probs,
         log_prob_fun=self._policy_dist.log_prob)
     return jnp.mean(jnp.abs(probs_ratio - 1) > self._epsilon)

Ejemplo n.º 2

Mostrar archivo

Archivo: actor_critic_joint.py Proyecto: hugochan/trax

 def ClippedObjectiveMean(
     dist_inputs, values, returns, actions, old_log_probs):
   """Clipped objective from the PPO algorithm."""
   advantages = returns - values
   probs_ratio = rl_layers.ProbsRatio(
       dist_inputs, actions, old_log_probs,
       log_prob_fun=self._policy_dist.log_prob)
   clipped_objective = rl_layers.ClippedObjective(
       probs_ratio, advantages, epsilon=self._epsilon)
   return jnp.mean(clipped_objective)

Ejemplo n.º 3

Mostrar archivo

Archivo: actor_critic_joint.py Proyecto: srush/trax

 def f(dist_inputs, values, returns, actions, old_log_probs):
   """Clipped objective from the PPO algorithm."""
   advantages = returns - values
   probs_ratio = rl_layers.ProbsRatio(
       dist_inputs, actions, old_log_probs,
       log_prob_fun=self._policy_dist.log_prob)
   # advantages are of the shape [128,1,1]
   # and probs_ratio are of the shape [128,1]
   advantages = advantages.squeeze(axis=2)
   clipped_objective = rl_layers.ClippedObjective(
       probs_ratio, advantages, epsilon=self._epsilon)
   return jnp.mean(clipped_objective)

Ejemplo n.º 4

Mostrar archivo

 def f(dist_inputs, values, returns, dones, rewards, actions, old_log_probs):
   """Unclipped objective Mean from the PPO algorithm."""
   del dones, rewards
   advantages = returns - values
   probs_ratio = rl_layers.ProbsRatio(
       dist_inputs, actions, old_log_probs,
       log_prob_fun=self._policy_dist.log_prob)
   # advantages are of the shape [128,1,1]
   # and probs_ratio are of the shape [128,1]
   advantages = advantages.squeeze(axis=2)
   unclipped_objective = rl_layers.UnclippedObjective(
       probs_ratio, advantages)
   return jnp.mean(unclipped_objective)