Python ReplayBuffer.adds Exemples

Langage de programmation: Python

Espace de nommage/Pack: replay_buffer

Class/Type: ReplayBuffer

Méthode/Fonction: adds

Exemples au hotexamples.com: 1

Python ReplayBuffer.adds - 1 exemples trouvés. Ce sont les exemples réels les mieux notés de replay_buffer.ReplayBuffer.adds extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

ReplayBuffer(30)

add(30)

count(26)

get_batch(25)

append(17)

encode_recent_observation(7)

getBatch(7)

add_sample(7)

insert(7)

clear(6)

load(5)

load_memory(5)

can_sample(4)

add_episode(4)

add_transition(4)

get_last_steps(3)

get_size(3)

create_batch(3)

is_ready(3)

add_experience(3)

add_to_memory(2)

make_index(2)

compute_values(2)

compute_value_difference(2)

compute_reward_distances(2)

compute_returns(2)

compute_lambda_returns(2)

fetch_sample(2)

compute_episode_boundaries(2)

encoder_recent_observation(2)

idx(2)

get_batch_data(1)

get_current_size(1)

get_experiences(1)

get_len(1)

get_current_state(1)

load_replay(1)

get_losses_offline(1)

get_memory(1)

get_minibatch(1)

importance_sampling(1)

in_order_iterate(1)

insert_sample(1)

k(1)

length(1)

lenth(1)

load_from_file(1)

get_random_minibatch(1)

dump(1)

get(1)

Méthodes fréquemment utilisées

ReplayBuffer (30)

add (30)

count (26)

get_batch (25)

append (17)

encode_recent_observation (7)

getBatch (7)

add_sample (7)

insert (7)

clear (6)

Méthodes fréquemment utilisées

load (5)

load_memory (5)

can_sample (4)

add_episode (4)

add_transition (4)

get_last_steps (3)

get_size (3)

create_batch (3)

is_ready (3)

add_experience (3)

add_to_memory (2)

make_index (2)

compute_values (2)

compute_value_difference (2)

compute_reward_distances (2)

compute_returns (2)

compute_lambda_returns (2)

fetch_sample (2)

compute_episode_boundaries (2)

encoder_recent_observation (2)

Méthodes fréquemment utilisées

add_to_memory (2)

make_index (2)

compute_values (2)

compute_value_difference (2)

compute_reward_distances (2)

compute_returns (2)

compute_lambda_returns (2)

fetch_sample (2)

compute_episode_boundaries (2)

encoder_recent_observation (2)

idx (2)

get_batch_data (1)

get_current_size (1)

get_experiences (1)

get_len (1)

get_current_state (1)

load_replay (1)

get_losses_offline (1)

get_memory (1)

get_minibatch (1)

importance_sampling (1)

in_order_iterate (1)

insert_sample (1)

k (1)

length (1)

lenth (1)

load_from_file (1)

get_random_minibatch (1)

dump (1)

get (1)

Méthodes fréquemment utilisées

idx (2)

get_batch_data (1)

get_current_size (1)

get_experiences (1)

get_len (1)

get_current_state (1)

load_replay (1)

get_losses_offline (1)

get_memory (1)

get_minibatch (1)

importance_sampling (1)

in_order_iterate (1)

insert_sample (1)

k (1)

length (1)

lenth (1)

load_from_file (1)

get_random_minibatch (1)

dump (1)

get (1)

batch_load (1)

_count (1)

_ptr (1)

addAbsorbing (1)

add_batch (1)

add_data (1)

add_datapoints (1)

add_effects (1)

add_errors (1)

add_expert (1)

add_tuples (1)

adds (1)

as_dataset (1)

buffer_init (1)

full (1)

buffered (1)

cache (1)

clear_buffer (1)

create_episode (1)

current_count (1)

Exemple #1

0

Afficher le fichier

class Agent(): def __init__(self, state_size, action_size, param={}, level_name='general'): self.seed = 714 np.random.seed(seed=self.seed) self.state_size = state_size self.action_size = action_size self.dummy_adv = np.zeros((1, 1)) self.dummy_actions_prob = np.zeros((1, action_size)) self.actor = Actor(state_size, action_size) self.critic = Critic(state_size, action_size) self.level_name = level_name timestampe = datetime.datetime.now().strftime("%Y_%m_%d_%H%M") self.writer = SummaryWriter('logs/%s/%s' % (self.level_name, timestampe)) self.best_weight_fn = 'ppo_best_%s_' + level_name.lower().replace( '.', '_') + '.h5' self.memory = [[], [], [], []] self.update_count = 0 self.cur_ind = 0 self.GAMMA = 0.99 self.EXPERIENCE_REPLAY = param.get('EXPERIENCE_REPLAY', False) if self.EXPERIENCE_REPLAY is True: self.BUFFER_SIZE = param['BUFFER_SIZE'] self.BATCH_SIZE = param['BATCH_SIZE'] self.buffer = ReplayBuffer(self.action_size, self.BUFFER_SIZE, self.BATCH_SIZE, self.seed) def get_memory_size(self): return len(self.memory[0]) def get_batch(self, batch_size): start, end = self.cur_ind, self.cur_ind + batch_size self.cur_ind += batch_size if end >= self.get_memory_size(): end = self.get_memory_size() self.cur_ind = 0 batch_size = end - start state = np.array(self.memory[0][start:end]) action_took = np.array(self.memory[1][start:end]) old_actions_prob = np.array(self.memory[2][start:end]) reward = np.array(self.memory[3][start:end]).reshape(batch_size, 1) if self.cur_ind == 0: self.reset_memory() return state, action_took, old_actions_prob, reward, batch_size def reset_memory(self): del self.memory self.memory = [[], [], [], []] def step(self, state, action_took, actions_prob, reward): self.memory[0].append(state) self.memory[1].append(action_took) self.memory[2].append(actions_prob) self.memory[3].append(reward) def act(self, state, test=False): actions_prob = None if test is True: actions_prob = self.actor.model.predict(np.array([state])) else: actions_prob = self.actor.model.predict( [np.array([state]), self.dummy_adv, self.dummy_actions_prob]) action = np.random.choice(self.action_size, p=np.nan_to_num(actions_prob[0])) action_took = np.zeros(self.action_size) action_took[action] = 1 return action, action_took, actions_prob[0] def compute_decay_reward(self): memory_size = self.get_memory_size() self.memory[0] = self.memory[0] self.memory[1] = np.array(self.memory[1]) self.memory[2] = np.array(self.memory[2]) self.memory[3] = np.array(self.memory[3]) for t in range(memory_size - 2, -1, -1): # timestep t # reward = r(t) + \sum_{t'} self.memory[3][ t] = self.memory[3][t] + self.memory[3][t + 1] * self.GAMMA if self.EXPERIENCE_REPLAY is True: self.buffer.adds(self.memory[0], self.memory[1], self.memory[2], self.memory[3]) def learn(self, batch_size, i_epoch): """ batch: state, action, actions_prob, reward """ while self.get_memory_size() != 0: state, action_took, old_actions_prob, reward, batch_size = self.get_batch( batch_size) if batch_size == 0: break advantage = self.critic.model.predict(state) advantage = reward - advantage actor_loss = self.actor.model.fit( [state, advantage, old_actions_prob], [action_took], batch_size=batch_size, shuffle=True, epochs=i_epoch, verbose=False) critic_loss = self.critic.model.fit([state], [reward], batch_size=batch_size, shuffle=True, epochs=i_epoch, verbose=False) self.writer.add_scalar('Actor loss', actor_loss.history['loss'][-1], self.update_count) self.writer.add_scalar('Critic loss', critic_loss.history['loss'][-1], self.update_count) self.update_count += 1 def learn_from_buffer(self, batch_size, i_epoch): """ batch: state, action, actions_prob, reward """ if self.EXPERIENCE_REPLAY is True and len(self.buffer) > batch_size: experiences = self.buffer.sample() state, action_took, reward, old_actions_prob = experiences advantage = self.critic.model.predict(state) advantage = reward - advantage actor_loss = self.actor.model.fit( [state, advantage, old_actions_prob], [action_took], batch_size=batch_size, shuffle=True, epochs=i_epoch, verbose=False) critic_loss = self.critic.model.fit([state], [reward], batch_size=batch_size, shuffle=True, epochs=i_epoch, verbose=False) self.writer.add_scalar('Actor loss', actor_loss.history['loss'][-1], self.update_count) self.writer.add_scalar('Critic loss', critic_loss.history['loss'][-1], self.update_count) self.update_count += 1 def save_model(self, name=None): if name is None: actor_name = self.best_weight_fn % 'actor' critic_name = self.best_weight_fn % 'critic' else: actor_name = name + 'actor' + '.h5' critic_name = name + 'critic' + '.h5' self.actor.save_model(actor_name) self.critic.save_model(critic_name) def load_model(self, actor_model_fn, critic_model_fn): self.actor.load_model(actor_model_fn) self.critic.load_model(critic_model_fn)