Python DQNAgent.update примеры использования

Язык программирования: Python

Пространство имен/Пакет: DQN

Класс/Тип: DQNAgent

Метод/Функция: update

Примеров на hotexamples.com: 2

Python DQNAgent.update - 2 примера найдено. Это лучшие примеры Python кода для DQN.DQNAgent.update, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

DQNAgent(30)

epsilon(27)

remember(27)

replay_new(26)

train_short_memory(25)

set_reward(24)

get_state(24)

save(8)

train(6)

replay(3)

load(3)

act(3)

el_mejor_estado(2)

parameters(2)

act_test(2)

state_dict(2)

update_replay_memory(2)

step(2)

optimizer(2)

get_action(2)

update(2)

get_move(2)

to(2)

store_transition(1)

target_train(1)

test_agent(1)

train_policy(1)

train_model(1)

possible_moves(1)

save_model(1)

replay_memory(1)

predict(1)

player(1)

memoize(1)

loss_avg(1)

learn(1)

get_reward(1)

get_qs(1)

consider(1)

choose_action(1)

best_state(1)

add_memoria(1)

update_target_model(1)

Пример #1

Показать файл

Файл: main.py Проект: saum7800/RLGame

def train():
    env = gym.make('CartPole-v0')
    agent = DQNAgent(env=env)
    num_episodes = 200
    for i_episode in range(num_episodes):
        state = env.reset()
        total_reward = 0
        while True:
            action = agent.get_action(state)
            next_state, reward, done, info = env.step(action)
            total_reward += reward
            update_array = [state, action, reward, next_state, done]
            agent.update(update_array)
            state = next_state
            if done:
                print("Episode ", i_episode, ": ", total_reward, "  epsilon: ", agent.epsilon)
                break
    agent.save('myClassModel')
    env.close()

Пример #2

Показать файл

Файл: DQN-PrioritizedReplay.py Проект: Leo-xh/DRL-implementation

    agent = DQNAgent(env, log_dir=log_dir)
    # agent.load(log_dir)
    episode_rewards = []

    ep = 0
    obs = env.reset()
    episode_reward = 0
    for frame in range(Config.MAX_FRAMES):
        # print("frame", frame)
        # env.render()
        epsilon = Config.epsilon_by_frame(frame)
        action = agent.get_action(obs, epsilon)
        prev_obs = obs
        obs, reward, done, _ = env.step(action)
        episode_reward += reward
        agent.update(prev_obs, action, reward, obs, frame)
        if done:
            episode_rewards.append(episode_reward)
            agent.writer.add_scalar("data/reward", episode_reward, ep)
            print("episode", ep, "reward:", episode_reward)
            ep += 1
            obs = env.reset()
            episode_reward = 0
        if ep % 50 == 0:
            agent.save(log_dir)

    agent.save(log_dir)
    env.close()
    agent.writer.close()