Python vpg_update 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: poison_rl.agents.updates

메소드/함수: vpg_update

hotexamples.com에서의 예제들: 2

Python vpg_update - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 poison_rl.agents.updates.vpg_update에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: op_wb_attacker.py 프로젝트: umd-huang-lab/poison-rl

 def update_policy(self, log_probs, cur_r, memory):
     '''Imitate the poicy update of the learner'''
     if self.alg == "vpg":
         vpg_update(self.im_optimizer, log_probs, cur_r, memory.is_terminals, self.gamma)
     elif self.alg == "ppo":
         ppo_update(self.im_policy, self.im_optimizer, log_probs, cur_r, memory, 
                    self.gamma, self.K_epochs, self.eps_clip, self.loss_fn, self.device)

예제 #2

파일 보기

 def learning(self, memory):
     if self.alg == "vpg":
         old_states = torch.stack(memory.states).to(self.device).detach()
         old_actions = torch.stack(memory.actions).to(self.device).detach()        
         logprobs = self.policy.act_prob(old_states, old_actions, self.device)       
         vpg_update(self.optimizer, logprobs, memory.rewards, memory.is_terminals, self.gamma)
     elif self.alg == "ppo":
         old_states = torch.stack(memory.states).to(self.device).detach()
         old_actions = torch.stack(memory.actions).to(self.device).detach() 
         logprobs = self.policy.act_prob(old_states, old_actions, self.device)
         ppo_update(self.policy, self.optimizer, logprobs, memory.rewards, 
                memory, self.gamma, self.K_epochs, self.eps_clip, self.loss_fn, self.device)