Python ReplayBuffer.addAbsorbing Exemples

Langage de programmation: Python

Espace de nommage/Pack: replay_buffer

Class/Type: ReplayBuffer

Méthode/Fonction: addAbsorbing

Exemples au hotexamples.com: 1

Python ReplayBuffer.addAbsorbing - 1 exemples trouvés. Ce sont les exemples réels les mieux notés de replay_buffer.ReplayBuffer.addAbsorbing extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

ReplayBuffer(30)

add(30)

count(26)

get_batch(25)

append(17)

encode_recent_observation(7)

getBatch(7)

add_sample(7)

insert(7)

clear(6)

load(5)

load_memory(5)

can_sample(4)

add_episode(4)

add_transition(4)

get_last_steps(3)

get_size(3)

create_batch(3)

is_ready(3)

add_experience(3)

add_to_memory(2)

make_index(2)

compute_values(2)

compute_value_difference(2)

compute_reward_distances(2)

compute_returns(2)

compute_lambda_returns(2)

fetch_sample(2)

compute_episode_boundaries(2)

encoder_recent_observation(2)

idx(2)

get_batch_data(1)

get_current_size(1)

get_experiences(1)

get_len(1)

get_current_state(1)

load_replay(1)

get_losses_offline(1)

get_memory(1)

get_minibatch(1)

importance_sampling(1)

in_order_iterate(1)

insert_sample(1)

k(1)

length(1)

lenth(1)

load_from_file(1)

get_random_minibatch(1)

dump(1)

get(1)

Méthodes fréquemment utilisées

ReplayBuffer (30)

add (30)

count (26)

get_batch (25)

append (17)

encode_recent_observation (7)

getBatch (7)

add_sample (7)

insert (7)

clear (6)

Méthodes fréquemment utilisées

load (5)

load_memory (5)

can_sample (4)

add_episode (4)

add_transition (4)

get_last_steps (3)

get_size (3)

create_batch (3)

is_ready (3)

add_experience (3)

add_to_memory (2)

make_index (2)

compute_values (2)

compute_value_difference (2)

compute_reward_distances (2)

compute_returns (2)

compute_lambda_returns (2)

fetch_sample (2)

compute_episode_boundaries (2)

encoder_recent_observation (2)

Méthodes fréquemment utilisées

add_to_memory (2)

make_index (2)

compute_values (2)

compute_value_difference (2)

compute_reward_distances (2)

compute_returns (2)

compute_lambda_returns (2)

fetch_sample (2)

compute_episode_boundaries (2)

encoder_recent_observation (2)

idx (2)

get_batch_data (1)

get_current_size (1)

get_experiences (1)

get_len (1)

get_current_state (1)

load_replay (1)

get_losses_offline (1)

get_memory (1)

get_minibatch (1)

importance_sampling (1)

in_order_iterate (1)

insert_sample (1)

k (1)

length (1)

lenth (1)

load_from_file (1)

get_random_minibatch (1)

dump (1)

get (1)

Méthodes fréquemment utilisées

idx (2)

get_batch_data (1)

get_current_size (1)

get_experiences (1)

get_len (1)

get_current_state (1)

load_replay (1)

get_losses_offline (1)

get_memory (1)

get_minibatch (1)

importance_sampling (1)

in_order_iterate (1)

insert_sample (1)

k (1)

length (1)

lenth (1)

load_from_file (1)

get_random_minibatch (1)

dump (1)

get (1)

batch_load (1)

_count (1)

_ptr (1)

addAbsorbing (1)

add_batch (1)

add_data (1)

add_datapoints (1)

add_effects (1)

add_errors (1)

add_expert (1)

add_tuples (1)

adds (1)

as_dataset (1)

buffer_init (1)

full (1)

buffered (1)

cache (1)

clear_buffer (1)

create_episode (1)

current_count (1)

Exemple #1

0

Afficher le fichier

def main(cl_args): # Create the environment to train on. env = gym.make(cl_args.env_id) sum_or_mean_loss = (cl_args.loss == 'sum') # They state they use a batch size of 100 and trajector length of 100 in the OpenReview comments. # https://openreview.net/forum?id=Hk4fpoA5Km&noteId=HyebhMXa2X # Trajectory length == T in the pseudo-code trajectory_length = 1000 batch_size = 100 # Train for 1 million timesteps. See Figure 4. num_steps = 1000000 state_dim = env.observation_space.shape[0] action_dim = env.action_space.shape[0] max_action = float(env.action_space.high[0]) lr = LearningRate.get_instance() lr.lr = 10**(-3) lr.decay_factor = 0.5 # lr.set_learning_rate(10 ** (-3)) # Loss is 10e-3 # lr.set_decay(1.0 / 2.0) # Decay is 1/2 # The buffer for the expert -> refer to dataset/mujoco_dset.py expert_buffer = Mujoco_Dset(env, cl_args.expert_path, cl_args.traj_num) actor_replay_buffer = ReplayBuffer(env) # TD3(state_dim, action_dim, max_action, actor_clipping, decay_steps*) *Not used yet; td3_policy = TD3(state_dim, action_dim, max_action, 40, 10**5) # Input dim = state_dim + action_dim discriminator = Discriminator(state_dim + action_dim, aggregate=cl_args.loss, loss=cl_args.loss_fn).to(device) # For storing temporary evaluations evaluations = [evaluate_policy(env, td3_policy, 0)] evaluate_every = 1000 steps_since_eval = 0 while len(actor_replay_buffer) < num_steps: print("\nCurrent step: {}".format(len(actor_replay_buffer.buffer))) current_state = env.reset() # Sample from policy; maybe we don't reset the environment -> since this may bias the policy toward initial observations for j in range(trajectory_length): action = td3_policy.select_action(np.array(current_state)) next_state, reward, done, _ = env.step(action) if done: actor_replay_buffer.addAbsorbing() current_state = env.reset() else: actor_replay_buffer.add((current_state, action, next_state), done) current_state = next_state discriminator.learn(actor_replay_buffer, expert_buffer, trajectory_length, batch_size) td3_policy.train(discriminator, actor_replay_buffer, trajectory_length, batch_size) if steps_since_eval >= evaluate_every: steps_since_eval = 0 evaluation = evaluate_policy(env, td3_policy, len(actor_replay_buffer)) evaluations.append(evaluation) steps_since_eval += trajectory_length last_evaluation = evaluate_policy(env, td3_policy, len(actor_replay_buffer)) evaluations.append(last_evaluation) store_results(evaluations, len(actor_replay_buffer), cl_args.loss, cl_args.loss_fn)