Python ppo_update示例

编程语言: Python

命名空间/包名称: poison_rl.agents.updates

方法/功能: ppo_update

hotexamples.com的示例: 2

Python ppo_update - 已找到2个示例。这些是从开源项目中提取的最受好评的poison_rl.agents.updates.ppo_update现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： op_wb_attacker.py 项目： umd-huang-lab/poison-rl

 def update_policy(self, log_probs, cur_r, memory):
     '''Imitate the poicy update of the learner'''
     if self.alg == "vpg":
         vpg_update(self.im_optimizer, log_probs, cur_r, memory.is_terminals, self.gamma)
     elif self.alg == "ppo":
         ppo_update(self.im_policy, self.im_optimizer, log_probs, cur_r, memory, 
                    self.gamma, self.K_epochs, self.eps_clip, self.loss_fn, self.device)

示例#2

显示文件

 def learning(self, memory):
     if self.alg == "vpg":
         old_states = torch.stack(memory.states).to(self.device).detach()
         old_actions = torch.stack(memory.actions).to(self.device).detach()        
         logprobs = self.policy.act_prob(old_states, old_actions, self.device)       
         vpg_update(self.optimizer, logprobs, memory.rewards, memory.is_terminals, self.gamma)
     elif self.alg == "ppo":
         old_states = torch.stack(memory.states).to(self.device).detach()
         old_actions = torch.stack(memory.actions).to(self.device).detach() 
         logprobs = self.policy.act_prob(old_states, old_actions, self.device)
         ppo_update(self.policy, self.optimizer, logprobs, memory.rewards, 
                memory, self.gamma, self.K_epochs, self.eps_clip, self.loss_fn, self.device)