Python ReplayBuffer.reset 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: buffer

클래스/타입: ReplayBuffer

메소드/함수: reset

hotexamples.com에서의 예제들: 2

Python ReplayBuffer.reset - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 buffer.ReplayBuffer.reset에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ReplayBuffer(30)

sample(30)

add(30)

push(26)

sample_buffer(16)

store_transition(15)

sample_batch(11)

store(9)

get_minibatch(8)

append(2)

add_transition(2)

size(2)

update_priorities(2)

random_next_batch(2)

reset(2)

add_experience(2)

getBatch(2)

store_trans(1)

store_frame(1)

store_episode(1)

save(1)

store_transtions(1)

sample_minibatch(1)

random_indices(1)

remember(1)

length(1)

isSampling(1)

insert(1)

encode_recent_observation(1)

dequeue(1)

clear(1)

append_data(1)

add_record(1)

add_items(1)

update_priority(1)

예제 #1

파일 보기

	sum_reward += reward
	setps += 1
	buff.add(obs, p, reward, next_obs, terminated)
	obs = next_obs

	if terminated:
		obs = env.reset()
		terminated = False
		reward_list.append(sum_reward)
		sum_reward = 0
		if buff.pointer > buffer_size:

			print(np.mean(reward_list))
			reward_list = []

			for k in range(num_ite):
				states, actions, returns, next_states, dones, gammas = buff.getBatch(mini_batch)
				Q_target = agents.compute_target([next_states])[0]
				Q_target = returns + Q_target*gammas*(1 - dones)
				agents.train_critic(states, actions, Q_target)
				agents.update()

			states, actions, returns, next_states, dones, gammas = buff.getBatch(2000)
			advantages = agents.compute_advantage([states]+[actions[i] for i in range(n_ant)])
			if advantage_norm:
				for i in range(n_ant):
					advantages[i] = (advantages[i] - advantages[i].mean())/(advantages[i].std()+1e-8)
			agents.train_actors(states, actions, advantages)

			buff.reset()

예제 #2

파일 보기

target_update_freq = 200
gamma = 0.04
explor_period = 10000

env = Environ3D(seed)
buffer = ReplayBuffer(buffer_size, env)
dqn = DoubleDQN(len(env.action_Space), buffer, buffer_size, batch_size, training_freq,\
               target_update_freq, gamma, explor_period, seed, env)

env.reset()

#######
#prefill buffer

prefill_buffer_size = 50000
buffer.reset()

for _ in range(prefill_buffer_size):

    action = np.random.randint(0, len(env.action_Space))
    current_state = np.copy(env.state)
    next_state, reward, done = env.step(action)
    buffer.store(current_state, action, reward, done, prefill=True)

    if done:
        env.reset()

#reset when prefilling is done
env.reset()

###########