Esempio n. 1
0
 def update(self):
     net_util.try_store_grad_norm(self)
     self.body.explore_var = self.explore_var_scheduler.update(
         self, self.body.env.clock)
     if self.entropy_coef_spec is not None:
         self.body.entropy_coef = self.entropy_coef_scheduler.update(
             self, self.body.env.clock)
     return self.body.explore_var
Esempio n. 2
0
 def update(self):
     '''Update the agent after training'''
     net_util.try_store_grad_norm(self)
     self.body.explore_var = self.explore_var_scheduler.update(
         self, self.body.env.clock)
     return self.body.explore_var