Python GridWorld.grid_coordinates_to_indices示例

编程语言: Python

命名空间/包名称: gridworld

类/类型: GridWorld

方法/功能: grid_coordinates_to_indices

hotexamples.com的示例: 1

Python GridWorld.grid_coordinates_to_indices - 已找到1个示例。这些是从开源项目中提取的最受好评的gridworld.GridWorld.grid_coordinates_to_indices现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

GridWorld(30)

gridsize(5)

set_ideal_grid(5)

height(4)

width(4)

load(3)

get_expert_action(3)

move(3)

perform_action(2)

get_state_data(2)

get_surroundings(2)

__init__(2)

get_cell(2)

draw(2)

end(2)

add_goal(2)

add_start(2)

process_events(2)

place_exit(1)

_fill_rect(1)

__move__(1)

grid_coordinates_to_indices(1)

act(1)

q_learning(1)

is_terminal(1)

play(1)

load_state_data(1)

loop(1)

min_remaining_moves(1)

get_starting_position(1)

plot_policy(1)

move_dir(1)

get_state(1)

action_space_sample(1)

get_s0(1)

draw_shape(1)

add_horizontal_wall(1)

add_trap(1)

add_vertical_wall(1)

available_actions(1)

create(1)

create_agents(1)

do_action(1)

draw_path(1)

evaluate(1)

get_reward(1)

generate(1)

generate_states(1)

getActions(1)

getStates(1)

示例#1

显示文件

文件： rl.py 项目： me-manikanta/Move-37-Course

        print(policy_grids[:, :, -1])
        print(utility_grids[:, :, -1])
        plt.figure()
        gw.plot_policy(utility_grids[:, :, -1])
        plot_convergence(utility_grids, policy_grids)
        plt.show()

    ql = QLearner(num_states=(shape[0] * shape[1]),
                  num_actions=4,
                  learning_rate=0.8,
                  discount_rate=0.9,
                  random_action_prob=0.5,
                  random_action_decay_rate=0.99,
                  dyna_iterations=0)

    start_state = gw.grid_coordinates_to_indices(start)

    iterations = 1000
    flat_policies, flat_utilities = ql.learn(start_state,
                                             gw.generate_experience,
                                             iterations=iterations)

    new_shape = (gw.shape[0], gw.shape[1], iterations)
    ql_utility_grids = flat_utilities.reshape(new_shape)
    ql_policy_grids = flat_policies.reshape(new_shape)
    print('Final result of QLearning:')
    print(ql_policy_grids[:, :, -1])
    print(ql_utility_grids[:, :, -1])

    plt.figure()
    gw.plot_policy(ql_utility_grids[:, :, -1], ql_policy_grids[:, :, -1])