Python DQNAgent.stepの例

プログラミング言語: Python

名前空間/パッケージ名: agents.dqn_agent

クラス/型: DQNAgent

メソッド/関数: step

hotexamples.comのコード掲載数: 2

Python DQNAgent.step - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのagents.dqn_agent.DQNAgent.stepの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

DQNAgent(20)

act(6)

train(3)

test(2)

learn(2)

load(2)

step(2)

replay(1)

update_target_hard(1)

training(1)

store_transition(1)

store_results(1)

select_action(1)

save_weights(1)

save_model(1)

run(1)

play(1)

register_episode(1)

__init__(1)

optimize(1)

observe(1)

memorize(1)

load_weights(1)

load_state_dict(1)

init_model(1)

eval(1)

create_dirs(1)

choose_action(1)

_save_training_data(1)

update_target_net(1)

コード例 #1

ファイルを表示

    agent = DQNAgent(config)
    agent.create_dirs()

    eps = config.eps_start

    for i_episode in range(1, config.n_episodes + 1):
        # Reset the environment and the score
        env_info = env.reset(train_mode=True)[brain_name]
        state = env_info.vector_observations[0]
        score = 0
        while True:
            action = agent.act(state, eps)
            env_info = env.step(action)[brain_name]
            next_state, reward, done = env_info.vector_observations[
                0], env_info.rewards[0], env_info.local_done[0]
            agent.step(state, action, reward, next_state, done)
            state = next_state
            score += reward
            if done:
                break
        scores_window.append(score)
        scores.append(score)
        avg_scores.append(np.mean(scores_window))
        eps = max(config.eps_min, config.eps_decay * eps)
        print(
            '\rEpisode {}\tEps {:.2f}\tLast Score: {:.2f}\tAverage Score: {:.2f}'
            .format(i_episode, eps, score, np.mean(scores_window)),
            end="")
        if i_episode % 100 == 0:
            test_scores.append(test(env, agent, i_episode))
            test_scores_i.append(i_episode)

コード例 #2

ファイルを表示

 env_info = env.reset(train_mode=True)[brain_name]
 state_raw = process_state(env_info.visual_observations[0])
 state_window.append(state_raw)
 state = np.vstack(
     [np.expand_dims(np.array(s), 0) for s in state_window])
 score = 0
 while True:
     action = agent.act(state, eps)
     env_info = env.step(action)[brain_name]
     next_state_raw, reward, done = process_state(env_info.visual_observations[0]), env_info.rewards[
         0], \
                                    env_info.local_done[0]
     state_window.append(next_state_raw)
     next_state = np.vstack(
         [np.expand_dims(np.array(s), 0) for s in state_window])
     agent.step(np.array([state]), action, reward,
                np.array([next_state]), done)
     state = next_state
     score += reward
     if done:
         break
 scores_window.append(score)
 scores.append(score)
 avg_scores.append(np.mean(scores_window))
 eps = max(config.eps_min, config.eps_decay * eps)
 print(
     '\rEpisode {}\tEps {:.2f}\tLast Score: {:.2f}\tAverage Score: {:.2f}'
     .format(i_episode, eps, score, np.mean(scores_window)),
     end="")
 if i_episode % 100 == 0:
     test_scores.append(test(env, agent, i_episode,
                             state_len=state_len))