Python UnclippedObjectiveの例

プログラミング言語: Python

名前空間/パッケージ名: trax.rl.rl_layers

メソッド/関数: UnclippedObjective

hotexamples.comのコード掲載数: 2

Python UnclippedObjective - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtrax.rl.rl_layers.UnclippedObjectiveの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: actor_critic_joint.py プロジェクト: hugochan/trax

 def UnclippedObjectiveMean(dist_inputs, values,
                            returns, actions, old_log_probs):
   """Unclipped objective Mean from the PPO algorithm."""
   advantages = returns - values
   probs_ratio = rl_layers.ProbsRatio(
       dist_inputs, actions, old_log_probs,
       log_prob_fun=self._policy_dist.log_prob)
   unclipped_objective = rl_layers.UnclippedObjective(
       probs_ratio, advantages)
   return jnp.mean(unclipped_objective)

コード例 #2

ファイルを表示

ファイル: actor_critic_joint.py プロジェクト: srush/trax

 def f(dist_inputs, values, returns, actions, old_log_probs):
   """Unclipped objective Mean from the PPO algorithm."""
   advantages = returns - values
   probs_ratio = rl_layers.ProbsRatio(
       dist_inputs, actions, old_log_probs,
       log_prob_fun=self._policy_dist.log_prob)
   # advantages are of the shape [128,1,1]
   # and probs_ratio are of the shape [128,1]
   advantages = advantages.squeeze(axis=2)
   unclipped_objective = rl_layers.UnclippedObjective(
       probs_ratio, advantages)
   return jnp.mean(unclipped_objective)