Python DQNAgent.learn примеры использования

Язык программирования: Python

Пространство имен/Пакет: agents.dqn_agent

Класс/Тип: DQNAgent

Метод/Функция: learn

Примеров на hotexamples.com: 2

Python DQNAgent.learn - 2 примера найдено. Это лучшие примеры Python кода для agents.dqn_agent.DQNAgent.learn, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

DQNAgent(20)

act(6)

train(3)

test(2)

learn(2)

load(2)

step(2)

replay(1)

update_target_hard(1)

training(1)

store_transition(1)

store_results(1)

select_action(1)

save_weights(1)

save_model(1)

run(1)

play(1)

register_episode(1)

__init__(1)

optimize(1)

observe(1)

memorize(1)

load_weights(1)

load_state_dict(1)

init_model(1)

eval(1)

create_dirs(1)

choose_action(1)

_save_training_data(1)

update_target_net(1)

Пример #1

Показать файл

Файл: training.py Проект: Mathieu4141/reinforced-mario

def train(agent: DQNAgent, env: Env, episodes: int = 10_000):
    display = False

    progression = tqdm.trange(episodes,
                              desc=f"Training {agent.name}",
                              unit="episode")
    fps = 0

    for episode in progression:
        state = env.reset()

        mean_reward = 0
        return_ = 0
        x_pos = 0

        for step in count(1):
            t = time()
            action = agent.act(np.asarray(state), explore=True)
            next_state, reward, done, info = env.step(action)
            agent.memorize(
                Experience((state, next_state, action, done, reward)))
            state = next_state
            agent.learn()

            mean_reward += (reward - mean_reward) / step
            return_ += reward
            x_pos = max(x_pos, info["x_pos"])
            fps = fps * 0.9 + 0.1 / (time() - t)

            if not step % 100:
                try:
                    display = (yaml.load(
                        (PROJECT_DIRECTORY / "display.yml").read_text()).get(
                            agent.name, {}).get("display", False))
                except:
                    pass
            if display:
                env.render()

            if done or info["flag_get"]:
                break

        progression.set_description(
            f"Training {agent.name}; "
            f"Frames: {agent.step} ({fps:.0f} FPS); "
            f"last progression: {x_pos} ({x_pos/3260:.1%}); "
            f"eps: {agent.eps:.2f}")

        agent.register_episode(
            EpisodeMetrics(episode=episode,
                           x_pos=x_pos,
                           return_=return_,
                           steps=step))

    agent.save_model()

Пример #2

Показать файл

        if d:
            t = 1
        else:
            t = 0

            agent.memory.store_effect(last_stored_frame_idx, a, r, t)

        inner_success.append(picked_up)

        if d:
            done = True

        # 42 steps per episode it seems
        if env_steps % 5 == 0:
            for _ in range(20):
                agent.learn()
            n_param_steps += 1

        # if n_param_steps % 100 == 0:
        #     agent.update_target_net()

        s = s_

    if np.sum(inner_success) > 0:
        successful_eps.append(1)
    else:
        successful_eps.append(0)

    if i % 10 == 0:
        agent.update_target_net()