Python ReplayBuffer.getBatch 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: buffer

클래스/타입: ReplayBuffer

메소드/함수: getBatch

hotexamples.com에서의 예제들: 2

Python ReplayBuffer.getBatch - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 buffer.ReplayBuffer.getBatch에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ReplayBuffer(30)

sample(30)

add(30)

push(26)

sample_buffer(16)

store_transition(15)

sample_batch(11)

store(9)

get_minibatch(8)

append(2)

add_transition(2)

size(2)

update_priorities(2)

random_next_batch(2)

reset(2)

add_experience(2)

getBatch(2)

store_trans(1)

store_frame(1)

store_episode(1)

save(1)

store_transtions(1)

sample_minibatch(1)

random_indices(1)

remember(1)

length(1)

isSampling(1)

insert(1)

encode_recent_observation(1)

dequeue(1)

clear(1)

append_data(1)

add_record(1)

add_items(1)

update_priority(1)

예제 #1

파일 보기

파일: main.py 프로젝트: jiechuanjiang/MARL-Mujoco

    ep_len += 1
    buff.add(obs, p, reward, next_obs, terminated)
    obs = next_obs

    if (terminated) | (ep_len == max_ep_len):
        obs = env.reset()
        terminated = False
        ep_len = 0

    if setps % 10000 == 0:
        print(test_agent())

    if (setps < 1000) | (setps % 50 != 0):
        continue

    for e in range(50):
        batch = buff.getBatch(batch_size)
        for j in range(batch_size):
            X[j] = batch[j][0]
            next_X[j] = batch[j][3]
            for i in range(n_ant):
                A[i][j] = batch[j][1][i]

        Q_target = agents.Q_tot_tar.predict(next_X, batch_size=batch_size)
        for j in range(batch_size):
            Q_target[j] = batch[j][2] + Q_target[j] * gamma * (1 - batch[j][4])

        agents.train_critic(X, A, Q_target)
        agents.train_actors(X)
        agents.update()

예제 #2

파일 보기

	sum_reward += reward
	setps += 1
	buff.add(obs, p, reward, next_obs, terminated)
	obs = next_obs

	if terminated:
		obs = env.reset()
		terminated = False
		reward_list.append(sum_reward)
		sum_reward = 0
		if buff.pointer > buffer_size:

			print(np.mean(reward_list))
			reward_list = []

			for k in range(num_ite):
				states, actions, returns, next_states, dones, gammas = buff.getBatch(mini_batch)
				Q_target = agents.compute_target([next_states])[0]
				Q_target = returns + Q_target*gammas*(1 - dones)
				agents.train_critic(states, actions, Q_target)
				agents.update()

			states, actions, returns, next_states, dones, gammas = buff.getBatch(2000)
			advantages = agents.compute_advantage([states]+[actions[i] for i in range(n_ant)])
			if advantage_norm:
				for i in range(n_ant):
					advantages[i] = (advantages[i] - advantages[i].mean())/(advantages[i].std()+1e-8)
			agents.train_actors(states, actions, advantages)

			buff.reset()