Python GridworldBase 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: ml.rl.test.gridworld.gridworld_base

클래스/타입: GridworldBase

hotexamples.com에서의 예제들: 8

Python GridworldBase - 8개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 ml.rl.test.gridworld.gridworld_base.GridworldBase에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

true_values_for_sample(2)

possible_next_actions(1)

step(1)

transition_probabilities(1)

true_rewards_for_sample(1)

예제 #1

파일 보기

파일: gridworld_continuous.py 프로젝트: sra4077/Horizon

 def true_values_for_sample(self, states, actions, assume_optimal_policy: bool):
     string_actions = []
     for action in actions:
         string_actions.append(self.features_to_action(action))
     return GridworldBase.true_values_for_sample(
         self, states, string_actions, assume_optimal_policy
     )

예제 #2

파일 보기

파일: gridworld_continuous.py 프로젝트: weiddeng/Horizon

 def true_values_for_sample(self, states, actions, assume_optimal_policy: bool):
     string_actions = []
     for action in actions:
         string_actions.append(self.features_to_action(action))
     return GridworldBase.true_values_for_sample(
         self, states, string_actions, assume_optimal_policy
     )

예제 #3

파일 보기

파일: limited_action_gridworld.py 프로젝트: kanirudh54/BlueWhale

 def transition_probabilities(self, state, action) -> np.ndarray:
     if action == "C":
         next_state = self._cheat_step(state)
         probabilities = np.zeros((self.width * self.height,))
         probabilities[next_state] = 1
         return probabilities
     else:
         return GridworldBase.transition_probabilities(self, state, action)

예제 #4

파일 보기

파일: gridworld_continuous.py 프로젝트: caozhengquan/BlueWhale

 def true_values_for_sample(self, states, actions,
                            assume_optimal_policy: bool):
     string_actions = []
     for action in actions:
         string_actions.append(self.ACTIONS[int(list(action.keys())[0]) -
                                            self.num_states])
     return GridworldBase.true_values_for_sample(self, states,
                                                 string_actions,
                                                 assume_optimal_policy)

예제 #5

파일 보기

 def possible_next_actions(self, state, ignore_terminal=False) -> List[str]:
     if ignore_terminal is False and self.is_terminal(state):
         return []
     possible_actions = GridworldBase.possible_next_actions(
         self, state, ignore_terminal)
     if ignore_terminal is False:
         # Also ignore cheat actions when ignoring terminal
         possible_actions.append('C')
     return possible_actions

예제 #6

파일 보기

 def step(self,
          action: str,
          with_possible=True) -> Tuple[int, float, bool, List[str]]:
     if action == 'C':
         self._state: int = self._cheat_step(self._state)
         reward = self.reward(self._state)
         possible_next_action = self.possible_next_actions(self._state)
         return self._state, reward, self.is_terminal(
             self._state), possible_next_action
     else:
         return GridworldBase.step(self, action)

예제 #7

파일 보기

파일: gridworld_continuous.py 프로젝트: weiddeng/Horizon

 def true_rewards_for_sample(self, states, actions):
     string_actions = []
     for action in actions:
         string_actions.append(self.features_to_action(action))
     return GridworldBase.true_rewards_for_sample(self, states, string_actions)

예제 #8

파일 보기

파일: gridworld_continuous.py 프로젝트: sra4077/Horizon

 def true_rewards_for_sample(self, states, actions):
     string_actions = []
     for action in actions:
         string_actions.append(self.features_to_action(action))
     return GridworldBase.true_rewards_for_sample(self, states, string_actions)