Python compute_policy_gradient_loss示例

编程语言: Python

命名空间/包名称: chainerrl.agents.acer

方法/功能: compute_policy_gradient_loss

hotexamples.com的示例: 2

Python compute_policy_gradient_loss - 已找到2个示例。这些是从开源项目中提取的最受好评的chainerrl.agents.acer.compute_policy_gradient_loss现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： test_acer.py 项目： daniellawson9999/quick_start

 def test_policy_gradient(self):
     action = self.mu.sample().array
     pg = acer.compute_policy_gradient_loss(action, 1, self.pi, self.mu,
                                            self.action_value, 0,
                                            self.truncation_threshold)
     print('pg', pg.array)
     self.assertFalse(np.isnan(np.sum(pg.array)))

示例#2

显示文件

文件： test_acer.py 项目： daniellawson9999/quick_start

 def bias_correction_policy_gradients(truncation_threshold):
     gs = []
     for sample in mu_samples:
         base_policy.cleargrads()
         loss = acer.compute_policy_gradient_loss(
             action=sample,
             advantage=evaluate_action(sample),
             action_distrib=pi,
             action_distrib_mu=mu,
             action_value=action_value,
             v=0,
             truncation_threshold=truncation_threshold)
         F.squeeze(loss).backward()
         gs.append(extract_gradients_as_single_vector(base_policy))
     return gs