Python ReplayBuffer.get_losses_offline Exemples

Langage de programmation: Python

Espace de nommage/Pack: replay_buffer

Class/Type: ReplayBuffer

Méthode/Fonction: get_losses_offline

Exemples au hotexamples.com: 1

Python ReplayBuffer.get_losses_offline - 1 exemples trouvés. Ce sont les exemples réels les mieux notés de replay_buffer.ReplayBuffer.get_losses_offline extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

ReplayBuffer(30)

add(30)

count(26)

get_batch(25)

append(17)

encode_recent_observation(7)

getBatch(7)

add_sample(7)

insert(7)

clear(6)

load(5)

load_memory(5)

can_sample(4)

add_episode(4)

add_transition(4)

get_last_steps(3)

get_size(3)

create_batch(3)

is_ready(3)

add_experience(3)

add_to_memory(2)

make_index(2)

compute_values(2)

compute_value_difference(2)

compute_reward_distances(2)

compute_returns(2)

compute_lambda_returns(2)

fetch_sample(2)

compute_episode_boundaries(2)

encoder_recent_observation(2)

idx(2)

get_batch_data(1)

get_current_size(1)

get_experiences(1)

get_len(1)

get_current_state(1)

load_replay(1)

get_losses_offline(1)

get_memory(1)

get_minibatch(1)

importance_sampling(1)

in_order_iterate(1)

insert_sample(1)

k(1)

length(1)

lenth(1)

load_from_file(1)

get_random_minibatch(1)

dump(1)

get(1)

Méthodes fréquemment utilisées

ReplayBuffer (30)

add (30)

count (26)

get_batch (25)

append (17)

encode_recent_observation (7)

getBatch (7)

add_sample (7)

insert (7)

clear (6)

Méthodes fréquemment utilisées

load (5)

load_memory (5)

can_sample (4)

add_episode (4)

add_transition (4)

get_last_steps (3)

get_size (3)

create_batch (3)

is_ready (3)

add_experience (3)

add_to_memory (2)

make_index (2)

compute_values (2)

compute_value_difference (2)

compute_reward_distances (2)

compute_returns (2)

compute_lambda_returns (2)

fetch_sample (2)

compute_episode_boundaries (2)

encoder_recent_observation (2)

Méthodes fréquemment utilisées

add_to_memory (2)

make_index (2)

compute_values (2)

compute_value_difference (2)

compute_reward_distances (2)

compute_returns (2)

compute_lambda_returns (2)

fetch_sample (2)

compute_episode_boundaries (2)

encoder_recent_observation (2)

idx (2)

get_batch_data (1)

get_current_size (1)

get_experiences (1)

get_len (1)

get_current_state (1)

load_replay (1)

get_losses_offline (1)

get_memory (1)

get_minibatch (1)

importance_sampling (1)

in_order_iterate (1)

insert_sample (1)

k (1)

length (1)

lenth (1)

load_from_file (1)

get_random_minibatch (1)

dump (1)

get (1)

Méthodes fréquemment utilisées

idx (2)

get_batch_data (1)

get_current_size (1)

get_experiences (1)

get_len (1)

get_current_state (1)

load_replay (1)

get_losses_offline (1)

get_memory (1)

get_minibatch (1)

importance_sampling (1)

in_order_iterate (1)

insert_sample (1)

k (1)

length (1)

lenth (1)

load_from_file (1)

get_random_minibatch (1)

dump (1)

get (1)

batch_load (1)

_count (1)

_ptr (1)

addAbsorbing (1)

add_batch (1)

add_data (1)

add_datapoints (1)

add_effects (1)

add_errors (1)

add_expert (1)

add_tuples (1)

adds (1)

as_dataset (1)

buffer_init (1)

full (1)

buffered (1)

cache (1)

clear_buffer (1)

create_episode (1)

current_count (1)

Exemple #1

0

Afficher le fichier

def main(lr_ac=0.4979, lr_cr=0.6318): wandb.init(entity="agkhalil", project="pytorch-ac-mountaincarcont-bayesopt5", reinit=True) wandb.watch_called = False parser = argparse.ArgumentParser( description='PyTorch actor-critic example') parser.add_argument('--lr_ac', type=float, default=0.1321, help='actor learning rate') parser.add_argument('--lr_cr', type=float, default=0.08311, help='critic learning rate') args = parser.parse_args() config = wandb.config config.batch_size = 50 config.episodes = 500 config.lr_ac = lr_ac config.lr_cr = lr_cr config.seed = 42 config.gamma = 0.99 device = torch.device('cpu') torch.manual_seed(config.seed) lr_ac = config.lr_ac lr_cr = config.lr_cr env = gym.make('MountainCarContinuous-v0') state_space_samples = np.array( [env.observation_space.sample() for x in range(1000)]) scaler = preprocessing.StandardScaler() scaler.fit(state_space_samples) env_type = 'CONT' mlp_ac = MLP_AC(net_layers([32, 16], env_type, env)).to(device) mlp_cr = MLP_AC(net_layers([64, 32], env_type, env)).to(device) ac = AC(mlp_ac, env, device, env_type) cr = AC(mlp_cr, env, device, env_type) optimizer_cr = optim.Adam(cr.policy.parameters(), lr=lr_cr) optimizer_ac = optim.Adam(ac.policy.parameters(), lr=lr_ac) EPISODES = config.episodes gamma = config.gamma Transition = namedtuple('Transition', ('state', 'action', 'log_prob', 'reward', 'next_state', 'done', 'value', 'next_value')) r_buffer = ReplayBuffer(Transition=Transition, size=10000, env=env) wandb.watch(ac.policy, log="all") for episode in tqdm(range(0, EPISODES)): rewards = [] log_probs = [] values_list = [] next_values_list = [] acts_list = [] obs = env.reset() done = False ep_reward = 0 step = 0 while not done: action, log_prob = ac.get_action(scale_state(obs, scaler)) value = cr.get_action(scale_state(obs, scaler), critic=True) new_obs, rew, done, _ = env.step(action) next_value = cr.get_action(scale_state(new_obs, scaler), critic=True) trans = (obs, action, log_prob.squeeze(), rew, new_obs, done, value.squeeze(), next_value.squeeze()) r_buffer.store(trans) ep_reward += rew acts_list.append(action) rewards.append(rew) log_probs.append(log_prob) values_list.append(value) next_values_list.append(next_value) step += 1 obs = new_obs # rewards_size = len(rewards) # gammas = [np.power(gamma, i) for i in range(rewards_size)] # discounted_rewards = [ # np.sum(np.multiply(gammas[:rewards_size - i], rewards[i:])) # for i in range(rewards_size) # ] # discounted_rewards = torch.tensor(discounted_rewards).to(device) # returns = [ # rewards[i] + gamma * next_values_list[i] # for i in reversed(range(rewards_size)) # ] # td = np.subtract(returns, values_list) # values_list = torch.stack(values_list) # returns = torch.stack(returns) # loss_cr = loss_fn(values_list, returns) # loss_ac = [-td[i].detach() * log_probs[i] for i in range(len(td))] # loss_ac = torch.stack(loss_ac) loss_ac, loss_cr = r_buffer.get_losses_offline(gamma=gamma) optimizer_ac.zero_grad() optimizer_cr.zero_grad() loss_cr = torch.stack(loss_cr) loss_ac = torch.stack(loss_ac) loss_cr.mean().backward(retain_graph=True) loss_ac.sum().backward() optimizer_cr.step() optimizer_ac.step() r_buffer.empty() wandb.log( { "Episode reward": ep_reward, "Episode length": step, "Policy Loss": loss_ac.cpu().mean(), "Value Loss": loss_cr.cpu().mean(), }, step=episode) if episode % 500 == 0 and episode != 0: env_wandb(env, ac, cr, wandb) wandb.join() return evaluate(env, ac, cr)