Python UnclippedObjective Exemples

Langage de programmation: Python

Espace de nommage/Pack: trax.rl.rl_layers

Méthode/Fonction: UnclippedObjective

Exemples au hotexamples.com: 2

Python UnclippedObjective - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de trax.rl.rl_layers.UnclippedObjective extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Exemple #1

0

Afficher le fichier

Fichier : actor_critic_joint.py Projet : hugochan/trax

def UnclippedObjectiveMean(dist_inputs, values, returns, actions, old_log_probs): """Unclipped objective Mean from the PPO algorithm.""" advantages = returns - values probs_ratio = rl_layers.ProbsRatio( dist_inputs, actions, old_log_probs, log_prob_fun=self._policy_dist.log_prob) unclipped_objective = rl_layers.UnclippedObjective( probs_ratio, advantages) return jnp.mean(unclipped_objective)

Exemple #2

0

Afficher le fichier

Fichier : actor_critic_joint.py Projet : srush/trax

def f(dist_inputs, values, returns, actions, old_log_probs): """Unclipped objective Mean from the PPO algorithm.""" advantages = returns - values probs_ratio = rl_layers.ProbsRatio( dist_inputs, actions, old_log_probs, log_prob_fun=self._policy_dist.log_prob) # advantages are of the shape [128,1,1] # and probs_ratio are of the shape [128,1] advantages = advantages.squeeze(axis=2) unclipped_objective = rl_layers.UnclippedObjective( probs_ratio, advantages) return jnp.mean(unclipped_objective)