Python QLearner.set_initial_state примеры использования

Язык программирования: Python

Пространство имен/Пакет: qlearner

Класс/Тип: QLearner

Метод/Функция: set_initial_state

Примеров на hotexamples.com: 1

Python QLearner.set_initial_state - 1 пример найден. Это лучшие примеры Python кода для qlearner.QLearner.set_initial_state, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

QLearner(11)

execute(3)

set_r_value(3)

get_policy(3)

train(2)

move(2)

query(1)

retrain(1)

rollout(1)

run_learning_trial(1)

run_simulation_trial(1)

Q(1)

s(1)

save_model(1)

set_initial_state(1)

set_invalid(1)

test(1)

train_step(1)

update(1)

save(1)

load_maze(1)

next_state(1)

compute_action(1)

a(1)

add_tensorboard_ops(1)

animate(1)

choose_best_action(1)

clear(1)

clear_states(1)

display_Q(1)

guide(1)

display_R(1)

episodes(1)

get_action(1)

get_reward(1)

get_states(1)

goal(1)

update_target_network(1)

Пример #1

Показать файл

Файл: session1a.py Проект: DLthree/mlfun

    indices = np.where(line == 200)
    return np.mean(indices)

def find_ball(a,b):
    diff = b-a
    diff = diff[tim_sux:chris_sux,:,0]
    indices = np.where(diff == 200)
    y = np.mean(indices[0]) + tim_sux
    x = np.mean(indices[1]) # chris_sux
    return (x,y)

env = gym.make('Breakout-v0')
learner = QLearner(num_states=500, num_actions=env.action_space.n)
for i_episode in range(2000):
    observation = env.reset()
    action = learner.set_initial_state(0)
    prev = observation
    total_reward = 0
    for t in range(10000):
        # env.render()
        prev = observation
        observation, reward, done, info = env.step(action)
        total_reward += reward
        paddle = find_paddle(observation)
        x,y = find_ball(prev, observation)
        try:
            feature = int(paddle - x)
            action = learner.move(feature, reward)
        except ValueError:
            feature = 250
            action = learner.move(feature, reward, force_random=True)