Esempi in Python per ReplayBuffer.SampleMiniBatch

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: utils.ReplayBuffer

Classe/tipologia: ReplayBuffer

Metodo/funzione: SampleMiniBatch

Esempi su hotexamples.com: 2

ReplayBuffer.SampleMiniBatch in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per utils.ReplayBuffer.ReplayBuffer.SampleMiniBatch, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

ReplayBuffer(19)

sample(13)

add(8)

push(4)

GetOccupency(2)

SampleMiniBatch(2)

StoreTransition(2)

update(2)

LoadBuffer(1)

SaveBuffer(1)

record(1)

update_priorities(1)

Esempio n. 1

Mostra file

File: ddpg_mine.py Progetto: ataitler/DQN

        mdp.add_frame(st_next)
        st_next = mdp.get_MDP_state()
        if Done:
            dt = 1
        else:
            dt = 0
        totalR += rt

        # store transition
        R.StoreTransition(st, at, np.array([rt]), st_next, dt)
        st = st_next

        if episode_i > OBSERVATION_PHASE:
            for mini_batch in xrange(BATCHES):
                # sample mini batch
                s_batch, a_batch, r_batch, stag_batch, terminal_batch, _ = R.SampleMiniBatch(
                    MINI_BATCH)

                Q_next = Critic.target_predict(
                    stag_batch, Actor.target_predict(stag_batch))
                Y = r_batch + GAMMA * Q_next * (1 - terminal_batch)

                Critic.train(Y, s_batch, a_batch)

                a_for_grad = Actor.predict(s_batch)
                grads = Critic.gradients(s_batch, a_batch)
                Actor.train(s_batch, grads)

                Actor.target_train()
                Critic.target_train()

        if Done is True:

Esempio n. 2

Mostra file

        st_next = mdp.get_MDP_state()
        if Done:
            dt = 1
        else:
            dt = 0
        totalR += rt

        # store transition
        R.StoreTransition(st, np.array([a_index]), np.array([rt]), st_next, dt)
        st = st_next

        E_local = [0]
        if episode_i > OBSERVATION_PHASE:
            for mini_batch in xrange(BATCHES):
                # sample mini batch
                s_batch, a_batch, r_batch, stag_batch, terminal_batch, _ = R.SampleMiniBatch(
                    MINI_BATCH)

                Y = Q.evaluate(sess, s_batch)

                #Q_next_arg = Q.evaluate(sess, stag_batch)
                #Q_next_argmax = np.argmax(Q_next_arg,1)
                #Q_next_target = Q_target.evaluate(sess, stag_batch)

                #a_batch = a_batch.astype(int)
                #for i in range(MINI_BATCH):
                #	Y[i,a_batch[i,0]] = r_batch[i,0] + GAMMA*Q_next_target[i,Q_next_argmax[i]] * (1-terminal_batch[i])

                #error = Q.train(sess, s_batch, Y)

                # old DQN
                Q_next = Q_target.evaluate(sess, stag_batch)