Exemplos de ReplayBuffer.getBatch em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: buffer

Classe / Tipo: ReplayBuffer

Método / Função: getBatch

Exemplos em hotexamples.com: 2

ReplayBuffer.getBatch em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de buffer.ReplayBuffer.getBatch em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

ReplayBuffer(30)

sample(30)

add(30)

push(26)

sample_buffer(16)

store_transition(15)

sample_batch(11)

store(9)

get_minibatch(8)

append(2)

add_transition(2)

size(2)

update_priorities(2)

random_next_batch(2)

reset(2)

add_experience(2)

getBatch(2)

store_trans(1)

store_frame(1)

store_episode(1)

save(1)

store_transtions(1)

sample_minibatch(1)

random_indices(1)

remember(1)

length(1)

isSampling(1)

insert(1)

encode_recent_observation(1)

dequeue(1)

clear(1)

append_data(1)

add_record(1)

add_items(1)

update_priority(1)

Métodos Frequentes

ReplayBuffer (30)

sample (30)

add (30)

push (26)

sample_buffer (16)

store_transition (15)

sample_batch (11)

store (9)

get_minibatch (8)

append (2)

Métodos Frequentes

add_transition (2)

size (2)

update_priorities (2)

random_next_batch (2)

reset (2)

add_experience (2)

getBatch (2)

store_trans (1)

store_frame (1)

store_episode (1)

save (1)

store_transtions (1)

sample_minibatch (1)

random_indices (1)

remember (1)

length (1)

isSampling (1)

insert (1)

encode_recent_observation (1)

dequeue (1)

Métodos Frequentes

save (1)

store_transtions (1)

sample_minibatch (1)

random_indices (1)

remember (1)

length (1)

isSampling (1)

insert (1)

encode_recent_observation (1)

dequeue (1)

clear (1)

append_data (1)

add_record (1)

add_items (1)

update_priority (1)

Métodos Frequentes

clear (1)

append_data (1)

add_record (1)

add_items (1)

update_priority (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: main.py Projeto: jiechuanjiang/MARL-Mujoco

ep_len += 1 buff.add(obs, p, reward, next_obs, terminated) obs = next_obs if (terminated) | (ep_len == max_ep_len): obs = env.reset() terminated = False ep_len = 0 if setps % 10000 == 0: print(test_agent()) if (setps < 1000) | (setps % 50 != 0): continue for e in range(50): batch = buff.getBatch(batch_size) for j in range(batch_size): X[j] = batch[j][0] next_X[j] = batch[j][3] for i in range(n_ant): A[i][j] = batch[j][1][i] Q_target = agents.Q_tot_tar.predict(next_X, batch_size=batch_size) for j in range(batch_size): Q_target[j] = batch[j][2] + Q_target[j] * gamma * (1 - batch[j][4]) agents.train_critic(X, A, Q_target) agents.train_actors(X) agents.update()

Exemplo n.º 2

0

Exibir arquivo

sum_reward += reward setps += 1 buff.add(obs, p, reward, next_obs, terminated) obs = next_obs if terminated: obs = env.reset() terminated = False reward_list.append(sum_reward) sum_reward = 0 if buff.pointer > buffer_size: print(np.mean(reward_list)) reward_list = [] for k in range(num_ite): states, actions, returns, next_states, dones, gammas = buff.getBatch(mini_batch) Q_target = agents.compute_target([next_states])[0] Q_target = returns + Q_target*gammas*(1 - dones) agents.train_critic(states, actions, Q_target) agents.update() states, actions, returns, next_states, dones, gammas = buff.getBatch(2000) advantages = agents.compute_advantage([states]+[actions[i] for i in range(n_ant)]) if advantage_norm: for i in range(n_ant): advantages[i] = (advantages[i] - advantages[i].mean())/(advantages[i].std()+1e-8) agents.train_actors(states, actions, advantages) buff.reset()