Python compute_policy_gradient_lossの例

プログラミング言語: Python

名前空間/パッケージ名: chainerrl.agents.acer

メソッド/関数: compute_policy_gradient_loss

hotexamples.comのコード掲載数: 2

Python compute_policy_gradient_loss - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのchainerrl.agents.acer.compute_policy_gradient_lossの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: test_acer.py プロジェクト: daniellawson9999/quick_start

 def test_policy_gradient(self):
     action = self.mu.sample().array
     pg = acer.compute_policy_gradient_loss(action, 1, self.pi, self.mu,
                                            self.action_value, 0,
                                            self.truncation_threshold)
     print('pg', pg.array)
     self.assertFalse(np.isnan(np.sum(pg.array)))

コード例 #2

ファイルを表示

ファイル: test_acer.py プロジェクト: daniellawson9999/quick_start

 def bias_correction_policy_gradients(truncation_threshold):
     gs = []
     for sample in mu_samples:
         base_policy.cleargrads()
         loss = acer.compute_policy_gradient_loss(
             action=sample,
             advantage=evaluate_action(sample),
             action_distrib=pi,
             action_distrib_mu=mu,
             action_value=action_value,
             v=0,
             truncation_threshold=truncation_threshold)
         F.squeeze(loss).backward()
         gs.append(extract_gradients_as_single_vector(base_policy))
     return gs