Exemplos de GridworldBase em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: ml.rl.test.gridworld.gridworld_base

Classe / Tipo: GridworldBase

Exemplos em hotexamples.com: 8

GridworldBase em Python - 8 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de ml.rl.test.gridworld.gridworld_base.GridworldBase em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

true_values_for_sample(2)

possible_next_actions(1)

step(1)

transition_probabilities(1)

true_rewards_for_sample(1)

Métodos Frequentes

true_values_for_sample (2)

possible_next_actions (1)

step (1)

transition_probabilities (1)

true_rewards_for_sample (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: gridworld_continuous.py Projeto: sra4077/Horizon

def true_values_for_sample(self, states, actions, assume_optimal_policy: bool): string_actions = [] for action in actions: string_actions.append(self.features_to_action(action)) return GridworldBase.true_values_for_sample( self, states, string_actions, assume_optimal_policy )

Exemplo n.º 2

0

Exibir arquivo

Arquivo: gridworld_continuous.py Projeto: weiddeng/Horizon

def true_values_for_sample(self, states, actions, assume_optimal_policy: bool): string_actions = [] for action in actions: string_actions.append(self.features_to_action(action)) return GridworldBase.true_values_for_sample( self, states, string_actions, assume_optimal_policy )

Exemplo n.º 3

0

Exibir arquivo

Arquivo: limited_action_gridworld.py Projeto: kanirudh54/BlueWhale

def transition_probabilities(self, state, action) -> np.ndarray: if action == "C": next_state = self._cheat_step(state) probabilities = np.zeros((self.width * self.height,)) probabilities[next_state] = 1 return probabilities else: return GridworldBase.transition_probabilities(self, state, action)

Exemplo n.º 4

0

Exibir arquivo

Arquivo: gridworld_continuous.py Projeto: caozhengquan/BlueWhale

def true_values_for_sample(self, states, actions, assume_optimal_policy: bool): string_actions = [] for action in actions: string_actions.append(self.ACTIONS[int(list(action.keys())[0]) - self.num_states]) return GridworldBase.true_values_for_sample(self, states, string_actions, assume_optimal_policy)

Exemplo n.º 5

0

Exibir arquivo

def possible_next_actions(self, state, ignore_terminal=False) -> List[str]: if ignore_terminal is False and self.is_terminal(state): return [] possible_actions = GridworldBase.possible_next_actions( self, state, ignore_terminal) if ignore_terminal is False: # Also ignore cheat actions when ignoring terminal possible_actions.append('C') return possible_actions

Exemplo n.º 6

0

Exibir arquivo

def step(self, action: str, with_possible=True) -> Tuple[int, float, bool, List[str]]: if action == 'C': self._state: int = self._cheat_step(self._state) reward = self.reward(self._state) possible_next_action = self.possible_next_actions(self._state) return self._state, reward, self.is_terminal( self._state), possible_next_action else: return GridworldBase.step(self, action)

Exemplo n.º 7

0

Exibir arquivo

Arquivo: gridworld_continuous.py Projeto: weiddeng/Horizon

def true_rewards_for_sample(self, states, actions): string_actions = [] for action in actions: string_actions.append(self.features_to_action(action)) return GridworldBase.true_rewards_for_sample(self, states, string_actions)

Exemplo n.º 8

0

Exibir arquivo

Arquivo: gridworld_continuous.py Projeto: sra4077/Horizon

def true_rewards_for_sample(self, states, actions): string_actions = [] for action in actions: string_actions.append(self.features_to_action(action)) return GridworldBase.true_rewards_for_sample(self, states, string_actions)