Python GridWorld.grid_coordinates_to_indices примеры использования

Язык программирования: Python

Пространство имен/Пакет: gridworld

Класс/Тип: GridWorld

Метод/Функция: grid_coordinates_to_indices

Примеров на hotexamples.com: 1

Python GridWorld.grid_coordinates_to_indices - 1 пример найден. Это лучшие примеры Python кода для gridworld.GridWorld.grid_coordinates_to_indices, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

GridWorld(30)

gridsize(5)

set_ideal_grid(5)

height(4)

width(4)

load(3)

get_expert_action(3)

move(3)

perform_action(2)

get_state_data(2)

get_surroundings(2)

__init__(2)

get_cell(2)

draw(2)

end(2)

add_goal(2)

add_start(2)

process_events(2)

place_exit(1)

_fill_rect(1)

__move__(1)

grid_coordinates_to_indices(1)

act(1)

q_learning(1)

is_terminal(1)

play(1)

load_state_data(1)

loop(1)

min_remaining_moves(1)

get_starting_position(1)

plot_policy(1)

move_dir(1)

get_state(1)

action_space_sample(1)

get_s0(1)

draw_shape(1)

add_horizontal_wall(1)

add_trap(1)

add_vertical_wall(1)

available_actions(1)

create(1)

create_agents(1)

do_action(1)

draw_path(1)

evaluate(1)

get_reward(1)

generate(1)

generate_states(1)

getActions(1)

getStates(1)

Пример #1

Показать файл

Файл: rl.py Проект: me-manikanta/Move-37-Course

        print(policy_grids[:, :, -1])
        print(utility_grids[:, :, -1])
        plt.figure()
        gw.plot_policy(utility_grids[:, :, -1])
        plot_convergence(utility_grids, policy_grids)
        plt.show()

    ql = QLearner(num_states=(shape[0] * shape[1]),
                  num_actions=4,
                  learning_rate=0.8,
                  discount_rate=0.9,
                  random_action_prob=0.5,
                  random_action_decay_rate=0.99,
                  dyna_iterations=0)

    start_state = gw.grid_coordinates_to_indices(start)

    iterations = 1000
    flat_policies, flat_utilities = ql.learn(start_state,
                                             gw.generate_experience,
                                             iterations=iterations)

    new_shape = (gw.shape[0], gw.shape[1], iterations)
    ql_utility_grids = flat_utilities.reshape(new_shape)
    ql_policy_grids = flat_policies.reshape(new_shape)
    print('Final result of QLearning:')
    print(ql_policy_grids[:, :, -1])
    print(ql_utility_grids[:, :, -1])

    plt.figure()
    gw.plot_policy(ql_utility_grids[:, :, -1], ql_policy_grids[:, :, -1])