Python RewardProbability 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: reagent.ope.estimators.sequential_estimators

클래스/타입: RewardProbability

hotexamples.com에서의 예제들: 4

Python RewardProbability - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 reagent.ope.estimators.sequential_estimators.RewardProbability에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

RewardProbability(4)

자주 사용되는 메소드들

RewardProbability (4)

예제 #1

파일 보기

파일: gridworld.py 프로젝트: ayush488/ReAgent

 def next_state_reward_dist(self, state: State,
                            action: Action) -> StateDistribution:
     probs = [self.noise_prob] * len(self.action_space)
     probs[action.value] = 1 - self.epsilon
     states = {}
     for a in self.action_space:
         sr = self._gridworld._next_state_reward(state, a)
         if sr.state in states:
             rp = states[sr.state]
             states[sr.state] = RewardProbability(rp.reward + sr.reward,
                                                  rp.prob + probs[a.value])
         else:
             states[sr.state] = RewardProbability(sr.reward, probs[a.value])
     return states

예제 #2

파일 보기

파일: gridworld.py 프로젝트: vishalbelsare/Horizon

 def next_state_reward_dist(self, state: State,
                            action: Action) -> StateDistribution:
     probs = [self.noise_prob] * len(self.action_space)
     assert isinstance(action.value,
                       int), f"got type {type(action.value)} instead of int"
     # pyre-fixme[16]: `int` has no attribute `__setitem__`.
     probs[action.value] = 1 - self.epsilon
     states = {}
     for a in self.action_space:
         sr = self._gridworld._next_state_reward(state, a)
         if sr.state in states:
             rp = states[sr.state]
             states[sr.state] = RewardProbability(
                 rp.reward + sr.reward,
                 # pyre-fixme[16]: `int` has no attribute `__getitem__`.
                 rp.prob + probs[a.value],
             )
         else:
             states[sr.state] = RewardProbability(sr.reward, probs[a.value])
     return states

예제 #3

파일 보기

파일: cartpole.py 프로젝트: terrorizer1980/ReAgent

 def next_state_reward_dist(self, state: State,
                            action: Action) -> StateDistribution:
     self._model.eval()
     state_reward_tensor = (self._model(
         torch.tensor(state.value, dtype=torch.float).reshape(
             -1, self._model._state_dim).to(self._device),
         torch.nn.functional.one_hot(
             torch.tensor(action.value, dtype=torch.long),
             self._model._action_dim,
         ).reshape(-1, self._model._action_dim).float().to(self._device),
     ).reshape(-1).cpu())
     return {
         State(state_reward_tensor[:self._model._state_dim]):
         RewardProbability(state_reward_tensor[-1].item())
     }

예제 #4

파일 보기

파일: gridworld.py 프로젝트: ayush488/ReAgent

 def next_state_reward_dist(self, state: State,
                            action: Action) -> StateDistribution:
     sr = self._next_state_reward(state, action)
     return {sr.state: RewardProbability(sr.reward, 1.0)}