Ejemplos de SeatActorBase.act_mixed en Python

Lenguaje de programación: Python

Namespace/Package Name: NFSP.workers.la.playing.SamplingAlgo

Clase / Tipo: SeatActorBase

Método / Función: act_mixed

Ejemplos en hotexamples.com: 4

Python SeatActorBase.act_mixed - 4 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de NFSP.workers.la.playing.SamplingAlgo.SeatActorBase.act_mixed extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

act_mixed(4)

pick_training_policy(4)

act_avg(1)

act_eps_greedy(1)

choose_a_br(1)

Ejemplo n.º 1

Mostrar archivo

    def act(self, step_wrappers):
        # """""""""""""""""""""
        # Act
        # """""""""""""""""""""
        SeatActorBase.act_mixed(step_wrappers=step_wrappers,
                                owner=self.seat_id,
                                br_learner=self.br_learner,
                                avg_learner=self.avg_learner,
                                current_policy_tags=self._current_policy_tags,
                                random_prob=self.br_learner.eps)

        # """""""""""""""""""""
        # Add to memories
        # """""""""""""""""""""
        for sw in step_wrappers:
            e_i = sw.env_idx
            if (self._current_policy_tags[e_i] == SeatActorBase.BR) and (
                    self._t_prof.add_random_actions_to_buffer or
                (not sw.action_was_random)):
                self._avg_buf_savers[e_i].add_step(
                    pub_obs=sw.obs,
                    a=sw.action,
                    legal_actions_mask=rl_util.get_legal_action_mask_np(
                        n_actions=self._env_bldr.N_ACTIONS,
                        legal_actions_list=sw.legal_actions_list))
            self._br_memory_savers[e_i].add_experience(
                obs_t_before_acted=sw.obs,
                a_selected_t=sw.action,
                legal_actions_list_t=sw.legal_actions_list)

Ejemplo n.º 2

Mostrar archivo

Archivo: AdamSampler.py Proyecto: JarlPed/DREAM-1

 def act_for_br_opp(self, step_wrappers):
     """ Anticipatory; greedy BR + AVG """
     SeatActorBase.act_mixed(
         step_wrappers=step_wrappers,
         br_learner=self.br_learner,
         owner=self.owner,
         avg_learner=self.avg_learner,
         current_policy_tags=self._current_policy_tags_OPP_BR,
         random_prob=0)

Ejemplo n.º 3

Mostrar archivo

 def act_for_avg_opp(self, step_wrappers):
     """
     Purely random because that's how it should be for correct reach
     """
     SeatActorBase.act_mixed(
         step_wrappers=step_wrappers,
         br_learner=self.br_learner,
         owner=self.owner,
         avg_learner=self.avg_learner,
         current_policy_tags=self._current_policy_tags_O_AVG,
         explore=True)

Ejemplo n.º 4

Mostrar archivo

Archivo: AdamSampler.py Proyecto: JarlPed/DREAM-1

 def act_for_br_trav(self, step_wrappers):
     # Act
     SeatActorBase.act_mixed(
         step_wrappers=step_wrappers,
         br_learner=self.br_learner,
         owner=self.owner,
         avg_learner=self.avg_learner,
         current_policy_tags=self._current_policy_tags_T_BR,
         random_prob=self._constant_eps)
     # Add to memories
     for sw in step_wrappers:
         e_i = sw.env_idx
         self._br_memory_savers[e_i].add_experience(
             obs_t_before_acted=sw.obs,
             a_selected_t=sw.action,
             legal_actions_list_t=sw.legal_actions_list)