Exemplos de GridWorld.get_rewards em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: GridWorld

Classe / Tipo: GridWorld

Método / Função: get_rewards

Exemplos em hotexamples.com: 1

GridWorld.get_rewards em Python - 1 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de GridWorld.GridWorld.get_rewards em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

GridWorld(30)

move(4)

bestMove(4)

reset(4)

printValueGrid(4)

printReturnGrid(4)

printPolicyGrid(4)

possibleMoves(4)

gameOver(3)

scan_grid_and_generate_graph(2)

save_graph(2)

render(2)

print_graph(2)

setDiscountFactor(2)

after(2)

createSquareCount(2)

create_grid_ui(2)

getActions(1)

printQValues(1)

move_on_given_route_aco(1)

move_on_given_route_genetic(1)

players(1)

get(1)

printPolicy(1)

generateWalls(1)

dfs_route(1)

generateGoals(1)

move_on_given_route(1)

printValues(1)

print_map(1)

randomAction(1)

cells(1)

addRandomObstacles(1)

move_on_given_route_a_star(1)

getAccessibleCells(1)

getAgentPose(1)

get_next_state(1)

getLength(1)

getPoseFromAction(1)

getPredFromPose(1)

getState(1)

getStateSpace(1)

getTotalSteps(1)

get_grid_world(1)

get_number_of_actions(1)

make_grid_world(1)

get_number_of_states(1)

get_rewards(1)

addAgent(1)

gridDefine(1)

Métodos Frequentes

GridWorld (30)

move (4)

bestMove (4)

reset (4)

printValueGrid (4)

printReturnGrid (4)

printPolicyGrid (4)

possibleMoves (4)

gameOver (3)

scan_grid_and_generate_graph (2)

Métodos Frequentes

save_graph (2)

render (2)

print_graph (2)

setDiscountFactor (2)

after (2)

createSquareCount (2)

create_grid_ui (2)

getActions (1)

printQValues (1)

move_on_given_route_aco (1)

move_on_given_route_genetic (1)

players (1)

get (1)

printPolicy (1)

generateWalls (1)

dfs_route (1)

generateGoals (1)

move_on_given_route (1)

printValues (1)

print_map (1)

Métodos Frequentes

move_on_given_route_genetic (1)

players (1)

get (1)

printPolicy (1)

generateWalls (1)

dfs_route (1)

generateGoals (1)

move_on_given_route (1)

printValues (1)

print_map (1)

randomAction (1)

cells (1)

addRandomObstacles (1)

move_on_given_route_a_star (1)

getAccessibleCells (1)

getAgentPose (1)

get_next_state (1)

getLength (1)

getPoseFromAction (1)

getPredFromPose (1)

getState (1)

getStateSpace (1)

getTotalSteps (1)

get_grid_world (1)

get_number_of_actions (1)

make_grid_world (1)

get_number_of_states (1)

get_rewards (1)

addAgent (1)

gridDefine (1)

Métodos Frequentes

randomAction (1)

cells (1)

addRandomObstacles (1)

move_on_given_route_a_star (1)

getAccessibleCells (1)

getAgentPose (1)

get_next_state (1)

getLength (1)

getPoseFromAction (1)

getPredFromPose (1)

getState (1)

getStateSpace (1)

getTotalSteps (1)

get_grid_world (1)

get_number_of_actions (1)

make_grid_world (1)

get_number_of_states (1)

get_rewards (1)

addAgent (1)

gridDefine (1)

isOutsideBounds (1)

is_terminated_state (1)

is_visited (1)

mainloop (1)

get_state (1)

Exemplo n.º 1

0

Exibir arquivo

class TestPlanning(unittest.TestCase): def setUp(self): self.n = 5 self.p = 1 self.gridworld = GridWorld(self.n, self.p) self.go_right_policy = np.ones(self.n * self.n, dtype=int) self.discount = 0.9 self.large_discount = 0.2 self.policy = np.array( [['TERMINAL', 'RIGHT', 'RIGHT', 'RIGHT', 'TERMINAL'], ['RIGHT', 'RIGHT', 'RIGHT', 'RIGHT', 'UP'], ['RIGHT', 'RIGHT', 'RIGHT', 'RIGHT', 'UP'], ['RIGHT', 'RIGHT', 'RIGHT', 'RIGHT', 'UP'], ['RIGHT', 'RIGHT', 'RIGHT', 'RIGHT', 'UP']]) self.policy_large_discount = np.array( [['TERMINAL', 'LEFT', 'RIGHT', 'RIGHT', 'TERMINAL'], ['UP', 'LEFT', 'RIGHT', 'RIGHT', 'UP'], ['UP', 'LEFT', 'RIGHT', 'RIGHT', 'UP'], ['UP', 'LEFT', 'RIGHT', 'RIGHT', 'UP'], ['UP', 'LEFT', 'RIGHT', 'RIGHT', 'UP']]) def test_transition_matrix(self): transition_rows = [] for i in range(self.n): for j in range(self.n): transition_row = np.zeros((self.n, self.n)) if (i, j) not in set([(0, 0), (0, self.n - 1)]): transition_row[i, min(j + 1, self.n - 1)] = 1 transition_rows.append(transition_row.flatten()) expected = np.vstack(transition_rows) actual = policy_transition_matrix( self.go_right_policy, self.gridworld) assert_array_equal(expected, actual) def test_full_policy_eval(self): transition = policy_transition_matrix( self.go_right_policy, self.gridworld) reward = self.gridworld.get_rewards() actual = full_policy_evaluation(transition, reward, self.discount) expected = np.zeros((self.n, self.n)) expected[0, :] = [10 * self.discount ** (self.n - 1 - i) for i in range(self.n)] expected[0, 0] = 1 expected = expected.flatten() assert_array_almost_equal(expected, actual) # def test_policy_iteration(self): policy = policy_iteration(self.gridworld, self.discount) actual = int_policy_to_str_policy(policy).reshape(self.n, self.n) assert_array_equal(self.policy, actual) def test_policy_iteration_more_discount(self): policy = policy_iteration(self.gridworld, self.large_discount) actual = int_policy_to_str_policy(policy).reshape(self.n, self.n) assert_array_equal(self.policy_large_discount, actual) def test_value_iteration(self): policy = value_iteration(self.gridworld, self.discount) actual = int_policy_to_str_policy(policy).reshape(self.n, self.n) assert_array_equal(self.policy, actual) def test_value_iteration_more_discount(self): policy = value_iteration(self.gridworld, self.large_discount) actual = int_policy_to_str_policy(policy).reshape(self.n, self.n) assert_array_equal(self.policy_large_discount, actual) def test_modified_policy_iteration(self): policy = modified_policy_iteration(self.gridworld, self.discount, num_eval_iters=3) actual = int_policy_to_str_policy(policy).reshape(self.n, self.n) assert_array_equal(self.policy, actual) def test_modified_policy_iteration_more_discount(self): policy = modified_policy_iteration(self.gridworld, self.large_discount, num_eval_iters=3) actual = int_policy_to_str_policy(policy).reshape(self.n, self.n) assert_array_equal(self.policy_large_discount, actual)