Esempi in Python per AttrDict.episodic_return

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: mrl.utils.misc

Classe/tipologia: AttrDict

Metodo/funzione: episodic_return

Esempi su hotexamples.com: 2

AttrDict.episodic_return in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per mrl.utils.misc.AttrDict.episodic_return, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

AttrDict(12)

get(3)

done_observation(2)

terminal_state(2)

episodic_return(2)

values(2)

done(1)

raw_success(1)

trajectory_over(1)

_set_state(1)

state_dict(1)

reset_state(1)

raw_tleft(1)

raw_tidx(1)

np_tleft(1)

buffer_tleft(1)

np_tidx(1)

np_success(1)

_get_state(1)

items(1)

buffer_success(1)

buffer_tidx(1)

dont_record(1)

next_state(1)

Esempio n. 1

Mostra file

File: env.py Progetto: nicolascastanet/mrl

    def step(self, action):

        obs, reward, done, info = self.env.step(action)

        if self.mode == 'Bob':
            import ipdb
            ipdb.set_trace()
            #First visit done for Bob
            if np.allclose(reward, 0.):
                done = True
                info['is_success'] = True
                if info.get('TimeLimit.truncated'):
                    del info['TimeLimit.truncated']

            return obs, reward, done, info

        elif self.mode == 'Alice':
            import ipdb
            ipdb.set_trace()
            info = AttrDict(info)
            self.total_rewards += reward
            if done:
                done = False
                info.done_observation = obs
                #info.terminal_state = True
                if info.get('TimeLimit.truncated'):
                    done = True
                    info.terminal_state = False
                info.episodic_return = self.total_rewards
                self.total_rewards = 0
            else:
                info.terminal_state = False
                info.episodic_return = None

            return obs, reward, done, info

Esempio n. 2

Mostra file

 def step(self, action):
     obs, reward, done, info = self.env.step(action)
     info = AttrDict(info)
     self.total_rewards += reward
     if done:
         info.done_observation = obs
         info.terminal_state = True
         if info.get('TimeLimit.truncated'):
             info.terminal_state = False
         info.episodic_return = self.total_rewards
         self.total_rewards = 0
     else:
         info.terminal_state = False
         info.episodic_return = None
     return obs, reward, done, info