Python ReplayBuffer.SampleMiniBatch示例

编程语言: Python

命名空间/包名称: utils.ReplayBuffer

类/类型: ReplayBuffer

方法/功能: SampleMiniBatch

hotexamples.com的示例: 2

Python ReplayBuffer.SampleMiniBatch - 已找到2个示例。这些是从开源项目中提取的最受好评的utils.ReplayBuffer.ReplayBuffer.SampleMiniBatch现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

ReplayBuffer(19)

sample(13)

add(8)

push(4)

GetOccupency(2)

SampleMiniBatch(2)

StoreTransition(2)

update(2)

LoadBuffer(1)

SaveBuffer(1)

record(1)

update_priorities(1)

示例#1

显示文件

文件： ddpg_mine.py 项目： ataitler/DQN

        mdp.add_frame(st_next)
        st_next = mdp.get_MDP_state()
        if Done:
            dt = 1
        else:
            dt = 0
        totalR += rt

        # store transition
        R.StoreTransition(st, at, np.array([rt]), st_next, dt)
        st = st_next

        if episode_i > OBSERVATION_PHASE:
            for mini_batch in xrange(BATCHES):
                # sample mini batch
                s_batch, a_batch, r_batch, stag_batch, terminal_batch, _ = R.SampleMiniBatch(
                    MINI_BATCH)

                Q_next = Critic.target_predict(
                    stag_batch, Actor.target_predict(stag_batch))
                Y = r_batch + GAMMA * Q_next * (1 - terminal_batch)

                Critic.train(Y, s_batch, a_batch)

                a_for_grad = Actor.predict(s_batch)
                grads = Critic.gradients(s_batch, a_batch)
                Actor.train(s_batch, grads)

                Actor.target_train()
                Critic.target_train()

        if Done is True:

示例#2

显示文件

        st_next = mdp.get_MDP_state()
        if Done:
            dt = 1
        else:
            dt = 0
        totalR += rt

        # store transition
        R.StoreTransition(st, np.array([a_index]), np.array([rt]), st_next, dt)
        st = st_next

        E_local = [0]
        if episode_i > OBSERVATION_PHASE:
            for mini_batch in xrange(BATCHES):
                # sample mini batch
                s_batch, a_batch, r_batch, stag_batch, terminal_batch, _ = R.SampleMiniBatch(
                    MINI_BATCH)

                Y = Q.evaluate(sess, s_batch)

                #Q_next_arg = Q.evaluate(sess, stag_batch)
                #Q_next_argmax = np.argmax(Q_next_arg,1)
                #Q_next_target = Q_target.evaluate(sess, stag_batch)

                #a_batch = a_batch.astype(int)
                #for i in range(MINI_BATCH):
                #	Y[i,a_batch[i,0]] = r_batch[i,0] + GAMMA*Q_next_target[i,Q_next_argmax[i]] * (1-terminal_batch[i])

                #error = Q.train(sess, s_batch, Y)

                # old DQN
                Q_next = Q_target.evaluate(sess, stag_batch)