Python ActorCritic.zero_grad Exemples

Langage de programmation: Python

Espace de nommage/Pack: model

Class/Type: ActorCritic

Méthode/Fonction: zero_grad

Exemples au hotexamples.com: 2

Python ActorCritic.zero_grad - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de model.ActorCritic.zero_grad extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

ActorCritic(30)

train(30)

state_dict(30)

parameters(30)

load_state_dict(30)

eval(30)

cuda(15)

share_memory(11)

to(7)

act(5)

actor(3)

remember(3)

get_skip(2)

select_action(2)

named_parameters(2)

get_v(2)

zero_grad(2)

forward(2)

evaluate(2)

critic(2)

apply(2)

calculateLoss(2)

choose_action(2)

clearMemory(2)

get_logproba(1)

sample_noise(1)

updateMemory(1)

train_model(1)

calc_loss(1)

step(1)

policy_class(1)

remove_noise(1)

clear_memory(1)

get_loss_propogate(1)

clip_grads(1)

compute_entropy(1)

name(1)

low_lr(1)

load_weights(1)

learned_embedding(1)

_forward_critic(1)

get_value(1)

Méthodes fréquemment utilisées

ActorCritic (30)

train (30)

state_dict (30)

parameters (30)

load_state_dict (30)

eval (30)

cuda (15)

share_memory (11)

to (7)

act (5)

Méthodes fréquemment utilisées

actor (3)

remember (3)

get_skip (2)

select_action (2)

named_parameters (2)

get_v (2)

zero_grad (2)

forward (2)

evaluate (2)

critic (2)

apply (2)

calculateLoss (2)

choose_action (2)

clearMemory (2)

get_logproba (1)

sample_noise (1)

updateMemory (1)

train_model (1)

calc_loss (1)

step (1)

Méthodes fréquemment utilisées

apply (2)

calculateLoss (2)

choose_action (2)

clearMemory (2)

get_logproba (1)

sample_noise (1)

updateMemory (1)

train_model (1)

calc_loss (1)

step (1)

policy_class (1)

remove_noise (1)

clear_memory (1)

get_loss_propogate (1)

clip_grads (1)

compute_entropy (1)

name (1)

low_lr (1)

load_weights (1)

learned_embedding (1)

_forward_critic (1)

get_value (1)

Méthodes fréquemment utilisées

policy_class (1)

remove_noise (1)

clear_memory (1)

get_loss_propogate (1)

clip_grads (1)

compute_entropy (1)

name (1)

low_lr (1)

load_weights (1)

learned_embedding (1)

_forward_critic (1)

get_value (1)

Exemple #1

0

Afficher le fichier

hash_p = hash_p[:, 1:] hash_n = hash_n[:, 1:] #### loss tri_loss = function.triplet_margin_loss(hash_o, hash_p, hash_n) tmp_prob = (function.log_porb(hash_o)) / (bit_len) loss_L = torch.mean(tmp_prob * tri_loss.detach()) loss_R = torch.mean(tri_loss) final_loss = lamda * loss_L + loss_R * (1 - lamda) #### update model.zero_grad() final_loss.backward() model.step() episode_length += 1 if episode_length % 20 == 0: print( str(episode_length) + ' ' + str(final_loss.item()) + " " + str(loss_L.item()) + " " + str(loss_R.item()) + "\n") file = open(logpath, "a") file.write( str(episode_length) + ' ' + str(final_loss.item()) + " " + str(loss_L.item()) + " " + str(loss_R.item()) + "\n") file.close()

Exemple #2

0

Afficher le fichier

Fichier : bot_basic.py Projet : ZeroStrength/RL_tradingbot

b_pact = np.array(batch[:, 1].tolist(), dtype=np.int32) b_reward = np.array(batch[:, 2].tolist(), dtype=np.int32) b_obs = np.array(batch[:, 3].tolist(), dtype=np.float32).reshape(batch_size, -1) b_done = np.array(batch[:, 4].tolist(), dtype=np.bool) q = Q(torch.from_numpy(b_pobs))[0] q_ = Q_ast(torch.from_numpy(b_obs))[0] maxq = np.max(q_.data.numpy(), axis=1) target = copy.deepcopy(q.data) for j in range(batch_size): target[j, b_pact[j]] = b_reward[j] + gamma * maxq[j] * ( not b_done[j]) Q.zero_grad() loss = loss_function(q, target) total_loss += loss.data.item() loss.backward() optimizer.step() if total_step % update_q_freq == 0: Q_ast = copy.deepcopy(Q) # epsilon if epsilon > epsilon_min and total_step > start_reduce_epsilon: epsilon -= epsilon_decrease # next step total_reward += reward pobs = obs