Python ActorCritic.clearMemory Exemples

Langage de programmation: Python

Espace de nommage/Pack: model

Class/Type: ActorCritic

Méthode/Fonction: clearMemory

Exemples au hotexamples.com: 2

Python ActorCritic.clearMemory - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de model.ActorCritic.clearMemory extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

ActorCritic(30)

train(30)

state_dict(30)

parameters(30)

load_state_dict(30)

eval(30)

cuda(15)

share_memory(11)

to(7)

act(5)

actor(3)

remember(3)

get_skip(2)

select_action(2)

named_parameters(2)

get_v(2)

zero_grad(2)

forward(2)

evaluate(2)

critic(2)

apply(2)

calculateLoss(2)

choose_action(2)

clearMemory(2)

get_logproba(1)

sample_noise(1)

updateMemory(1)

train_model(1)

calc_loss(1)

step(1)

policy_class(1)

remove_noise(1)

clear_memory(1)

get_loss_propogate(1)

clip_grads(1)

compute_entropy(1)

name(1)

low_lr(1)

load_weights(1)

learned_embedding(1)

_forward_critic(1)

get_value(1)

Méthodes fréquemment utilisées

ActorCritic (30)

train (30)

state_dict (30)

parameters (30)

load_state_dict (30)

eval (30)

cuda (15)

share_memory (11)

to (7)

act (5)

Méthodes fréquemment utilisées

actor (3)

remember (3)

get_skip (2)

select_action (2)

named_parameters (2)

get_v (2)

zero_grad (2)

forward (2)

evaluate (2)

critic (2)

apply (2)

calculateLoss (2)

choose_action (2)

clearMemory (2)

get_logproba (1)

sample_noise (1)

updateMemory (1)

train_model (1)

calc_loss (1)

step (1)

Méthodes fréquemment utilisées

apply (2)

calculateLoss (2)

choose_action (2)

clearMemory (2)

get_logproba (1)

sample_noise (1)

updateMemory (1)

train_model (1)

calc_loss (1)

step (1)

policy_class (1)

remove_noise (1)

clear_memory (1)

get_loss_propogate (1)

clip_grads (1)

compute_entropy (1)

name (1)

low_lr (1)

load_weights (1)

learned_embedding (1)

_forward_critic (1)

get_value (1)

Méthodes fréquemment utilisées

policy_class (1)

remove_noise (1)

clear_memory (1)

get_loss_propogate (1)

clip_grads (1)

compute_entropy (1)

name (1)

low_lr (1)

load_weights (1)

learned_embedding (1)

_forward_critic (1)

get_value (1)

Exemple #1

0

Afficher le fichier

Fichier : train.py Projet : JeremyArsenault/HockeyJockey

def train_single_player_return(): max_episodes = 50000 episodes_per_update = 10 render = False gamma = 0.99 lr = 0.005 betas = (0.9, 0.999) path = 'models/single_player.pkl' env = SinglePlayerReturn(DiscreteActionBotSim()) policy = ActorCritic() optimizer = optim.Adam(policy.parameters(), lr=lr, betas=betas) r = [] i_episode = 0 while i_episode < max_episodes: state = env.reset() done = False while not done: action = policy(state) state, reward, done, i = env.step(action) policy.temp_rewards.append(reward) i_episode += 1 r.append(reward) if i_episode % 10: policy.updateMemory(gamma) continue # Updating the policy : optimizer.zero_grad() loss = policy.calculateLoss() loss.backward() policy.clip_grads() optimizer.step() policy.clearMemory() if i_episode % 500 == 0: if len(r) > 50: print('Episode ', i_episode, ': avg reward ', sum(r) / len(r)) else: print('Episode ', i_episode, ': avg reward n/a') if i_episode % 1000 == 0: torch.save(policy, path) if len(r) > 100: r.pop(0) if sum(r) / len(r) > 0.8: r = [] v += 1 print('CONVERGED v', v) break torch.save(policy, path)

Exemple #2

0

Afficher le fichier

def train(): # Defaults parameters: # gamma = 0.99 # lr = 0.02 # betas = (0.9, 0.999) # random_seed = 543 render = False gamma = 0.99 lr = 0.02 betas = (0.9, 0.999) random_seed = 543 torch.manual_seed(random_seed) env = gym.make('LunarLander-v2') env.seed(random_seed) policy = ActorCritic() optimizer = optim.Adam(policy.parameters(), lr=lr, betas=betas) print(lr,betas) running_reward = 0 for i_episode in range(0, 10000): state = env.reset() for t in range(10000): action = policy(state) state, reward, done, _ = env.step(action) policy.rewards.append(reward) running_reward += reward if render and i_episode > 1000: env.render() if done: break # Updating the policy : optimizer.zero_grad() loss = policy.calculateLoss(gamma) loss.backward() optimizer.step() policy.clearMemory() # saving the model if episodes > 999 OR avg reward > 200 #if i_episode > 999: # torch.save(policy.state_dict(), './preTrained/LunarLander_{}_{}_{}.pth'.format(lr, betas[0], betas[1])) if running_reward > 4000: torch.save(policy.state_dict(), './preTrained/LunarLander_{}_{}_{}.pth'.format(lr, betas[0], betas[1])) print("########## Solved! ##########") test(name='LunarLander_{}_{}_{}.pth'.format(lr, betas[0], betas[1])) break if i_episode % 20 == 0: running_reward = running_reward/20 print('Episode {}\tlength: {}\treward: {}'.format(i_episode, t, running_reward)) running_reward = 0