Esempi in Python per DQNAgent.experience_replay

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: dqn_agent

Classe/tipologia: DQNAgent

Metodo/funzione: experience_replay

Esempi su hotexamples.com: 4

DQNAgent.experience_replay in Python: 4 esempi trovati. Questi sono i migliori esempi reali in Python per dqn_agent.DQNAgent.experience_replay, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

DQNAgent(30)

act(16)

best_state(12)

choose_action(11)

add_to_memory(10)

load(8)

epsilon(6)

__init__(3)

learn(3)

feed(3)

Q_values(3)

experience_replay(3)

append_experience(1)

get_td_error(1)

get_qs(1)

get_random_action(1)

greedy_action(1)

get_uncertainty(1)

get_loss(1)

increase_target_update_counter(1)

init_model(1)

init_simple_model(1)

learn_step(1)

learning_rate(1)

get_q_values(1)

feedback_observe(1)

get_input_shape(1)

get_action(1)

gamma(1)

feedback_learn(1)

evaluate_on_fixed_set(1)

evaluate(1)

eval_step(1)

epsilon_decay(1)

episode_end(1)

do_setup(1)

compile(1)

collect_exp(1)

choose_opt_action(1)

choose_action_(1)

exploration(1)

Esempio n. 1

Mostra file

File: train.py Progetto: maekawatoshiki/dqn-sample

        while not terminal:
            state_t = state_t_1

            # execute action in environment
            action_t = agent.select_action(state_t, agent.exploration)
            env.execute_action(action_t)

            # observe environment
            state_t_1, reward_t, terminal = env.observe()

            # store experience
            agent.store_experience(state_t, action_t, reward_t, state_t_1,
                                   terminal)

            # experience replay
            agent.experience_replay()

            # for log
            frame += 1
            loss += agent.current_loss
            Q_max += np.max(agent.Q_values(state_t))
        if reward_t >= 1:
            win += 1

        print(
            "EPOCH: {:03d}/{:03d} | WIN: {:03d} | LOSS: {:.4f} | Q_MAX: {:.4f}"
            .format(e, n_epochs - 1, win, loss / frame, Q_max / frame))

    # save model
    agent.save_model()

Esempio n. 2

Mostra file

File: train.py Progetto: Tonyan/tf-dqn-simple

        state_t_1, reward_t, terminal = env.observe()

        while not terminal:
            state_t = state_t_1

            # execute action in environment
            action_t = agent.select_action(state_t, agent.exploration)
            env.execute_action(action_t)

            # observe environment
            state_t_1, reward_t, terminal = env.observe()

            # store experience
            agent.store_experience(state_t, action_t, reward_t, state_t_1, terminal)

            # experience replay
            agent.experience_replay()

            # for log
            frame += 1
            loss += agent.current_loss
            Q_max += np.max(agent.Q_values(state_t))
            if reward_t == 1:
                win += 1

        print("EPOCH: {:03d}/{:03d} | WIN: {:03d} | LOSS: {:.4f} | Q_MAX: {:.4f}".format(
            e, n_epochs - 1, win, loss / frame, Q_max / frame))

    # save model
    agent.save_model()

Esempio n. 3

Mostra file

            action_t = agent.select_action([state_t], agent.exploration)
            env.execute_action(action_t)

            # observe environment
            state_t_1, reward_t, terminal = env.observe()

            # store experience
            start_replay = False
            start_replay = agent.store_experience([state_t], action_t, reward_t, [state_t_1], terminal)

            # experience replay
            if start_replay:
                do_replay_count += 1
                agent.update_exploration(e)
                if do_replay_count > 2:
                    agent.experience_replay(e)
                    do_replay_count = 0

            # update target network
            if total_frame % 500 == 0 and start_replay:
                agent.update_target_model()

            # for log
            frame += 1
            total_frame += 1
            loss += agent.current_loss
            Q_max += np.max(agent.Q_values([state_t]))
            if reward_t == 1:
                win += 1

        if start_replay:

Esempio n. 4

Mostra file

File: train.py Progetto: knnfm/tf-othello-rd

            while True is True:
                env.is_available()

                # 手を選ばせる。盤面情報と手のブレ率（random)を与える
                # hand_result = env.random_play()
                action_t = agent.select_action(state_before, agent.exploration)
                hand_result = env.learning_play(action_t)

                if hand_result == "ok":
                    break
                elif hand_result == "ng":
                    state_after = env.observe_ng(action_t)
                    reward_t = -9999
                    agent.store_experience(state_before, action_t, reward_t,
                                           state_after, env.is_playable())
                    agent.experience_replay(n_epochs)
                    n_epochs += 1
                    frame += 1
                    loss += agent.current_loss
                    Q_max += np.max(agent.Q_values(state_before))
                    print "EPOCH: {:03d} | WIN: {:03d} | LOSS: {:.4f} | Q_MAX: {:.4f}".format(
                        n_epochs, win, loss / frame, Q_max / frame)
                elif hand_result == "pass":
                    break
                else:
                    print "Hung up"

            # 相手の手を進める（基本的に相手が後攻）
            env.learning_next()

            # 1手毎の結果を処理する