Python AWRLossの例

プログラミング言語: Python

名前空間/パッケージ名: trax.rl.actor_critic

メソッド/関数: AWRLoss

hotexamples.comのコード掲載数: 2

Python AWRLoss - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtrax.rl.actor_critic.AWRLossの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

 def f(preds, values, returns, actions, mask):
   advantages = jnp.squeeze(returns - stop_gradient(values), axis=-1)
   logps = self._policy_dist.log_prob(preds, actions)
   awr_loss = actor_critic.AWRLoss(beta=self._beta, w_max=self._w_max)(
       (logps, advantages, jnp.zeros_like(logps), mask))
   l2_value_loss = jnp.mean((returns - values)**2) * self._value_loss_coeff
   return awr_loss + l2_value_loss

コード例 #2

ファイルを表示

ファイル: actor_critic_joint.py プロジェクト: hugochan/trax

 def AWRJointLoss(x, **unused_kwargs):  # pylint: disable=invalid-name
   preds, values, returns, actions, mask = x
   advantages = jnp.squeeze(returns - values, axis=-1)
   logps = self._policy_dist.log_prob(preds, actions)
   awr_loss = actor_critic.AWRLoss(beta=self._beta, w_max=self._w_max)(
       (logps, advantages, jnp.zeros_like(logps), mask))
   l2_value_loss = jnp.mean((returns - values)**2) * self._value_loss_coeff
   return awr_loss + l2_value_loss