Python GridWorld.plot_policy Examples

Programming Language: Python

Namespace/Package Name: gridworld

Class/Type: GridWorld

Method/Function: plot_policy

Examples at hotexamples.com: 1

Python GridWorld.plot_policy - 1 examples found. These are the top rated real world Python examples of gridworld.GridWorld.plot_policy extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

GridWorld(30)

gridsize(5)

set_ideal_grid(5)

height(4)

width(4)

load(3)

get_expert_action(3)

move(3)

perform_action(2)

get_state_data(2)

get_surroundings(2)

__init__(2)

get_cell(2)

draw(2)

end(2)

add_goal(2)

add_start(2)

process_events(2)

place_exit(1)

_fill_rect(1)

__move__(1)

grid_coordinates_to_indices(1)

act(1)

q_learning(1)

is_terminal(1)

play(1)

load_state_data(1)

loop(1)

min_remaining_moves(1)

get_starting_position(1)

plot_policy(1)

move_dir(1)

get_state(1)

action_space_sample(1)

get_s0(1)

draw_shape(1)

add_horizontal_wall(1)

add_trap(1)

add_vertical_wall(1)

available_actions(1)

create(1)

create_agents(1)

do_action(1)

draw_path(1)

evaluate(1)

get_reward(1)

generate(1)

generate_states(1)

getActions(1)

getStates(1)

Example #1

Show file

File: rl.py Project: me-manikanta/Move-37-Course

                       (1, 0.1),
                   ],
                   no_action_probability=0.0)

    mdp_solvers = {
        'Value Iteration': gw.run_value_iterations,
        'Policy Iteration': gw.run_policy_iterations
    }

    for solver_name, solver_fn in mdp_solvers.items():
        print('Final result of {}:'.format(solver_name))
        policy_grids, utility_grids = solver_fn(iterations=25, discount=0.5)
        print(policy_grids[:, :, -1])
        print(utility_grids[:, :, -1])
        plt.figure()
        gw.plot_policy(utility_grids[:, :, -1])
        plot_convergence(utility_grids, policy_grids)
        plt.show()

    ql = QLearner(num_states=(shape[0] * shape[1]),
                  num_actions=4,
                  learning_rate=0.8,
                  discount_rate=0.9,
                  random_action_prob=0.5,
                  random_action_decay_rate=0.99,
                  dyna_iterations=0)

    start_state = gw.grid_coordinates_to_indices(start)

    iterations = 1000
    flat_policies, flat_utilities = ql.learn(start_state,