Python Batch.v Exemples

Langage de programmation: Python

Espace de nommage/Pack: tianshou.data

Class/Type: Batch

Méthode/Fonction: v

Exemples au hotexamples.com: 2

Python Batch.v - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de tianshou.data.Batch.v extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

Batch(30)

split(30)

weight(28)

pop(23)

returns(17)

stack(14)

update(11)

cat(9)

rew(9)

obs(8)

get(7)

act(7)

to_torch(6)

logp_old(6)

done(6)

cat_(6)

append(5)

adv(5)

is_empty(5)

keys(3)

to_numpy(3)

items(3)

obs_next(2)

update_weight(2)

empty_(2)

empty(2)

cat_list(2)

v_s(2)

v(2)

b(2)

values(1)

value_targets(1)

advantages(1)

loss(1)

policy(1)

stack_(1)

__repr__(1)

info(1)

indice(1)

Méthodes fréquemment utilisées

Batch (30)

split (30)

weight (28)

pop (23)

returns (17)

stack (14)

update (11)

cat (9)

rew (9)

obs (8)

Méthodes fréquemment utilisées

get (7)

act (7)

to_torch (6)

logp_old (6)

done (6)

cat_ (6)

append (5)

adv (5)

is_empty (5)

keys (3)

to_numpy (3)

items (3)

obs_next (2)

update_weight (2)

empty_ (2)

empty (2)

cat_list (2)

v_s (2)

v (2)

b (2)

Méthodes fréquemment utilisées

to_numpy (3)

items (3)

obs_next (2)

update_weight (2)

empty_ (2)

empty (2)

cat_list (2)

v_s (2)

v (2)

b (2)

values (1)

value_targets (1)

advantages (1)

loss (1)

policy (1)

stack_ (1)

__repr__ (1)

info (1)

indice (1)

Méthodes fréquemment utilisées

values (1)

value_targets (1)

advantages (1)

loss (1)

policy (1)

stack_ (1)

__repr__ (1)

info (1)

indice (1)

Exemple #1

0

Afficher le fichier

Fichier : ppo.py Projet : zzjun725/tianshou

def process_fn(self, batch: Batch, buffer: ReplayBuffer, indice: np.ndarray) -> Batch: if self._rew_norm: mean, std = batch.rew.mean(), batch.rew.std() if not np.isclose(std, 0, 1e-2): batch.rew = (batch.rew - mean) / std v, v_, old_log_prob = [], [], [] with torch.no_grad(): for b in batch.split(self._batch, shuffle=False): v_.append(self.critic(b.obs_next)) v.append(self.critic(b.obs)) old_log_prob.append(self(b).dist.log_prob( to_torch_as(b.act, v[0]))) v_ = to_numpy(torch.cat(v_, dim=0)) batch = self.compute_episodic_return( batch, v_, gamma=self._gamma, gae_lambda=self._lambda, rew_norm=self._rew_norm) batch.v = torch.cat(v, dim=0).flatten() # old value batch.act = to_torch_as(batch.act, v[0]) batch.logp_old = torch.cat(old_log_prob, dim=0) batch.returns = to_torch_as(batch.returns, v[0]) batch.adv = batch.returns - batch.v if self._rew_norm: mean, std = batch.adv.mean(), batch.adv.std() if not np.isclose(std.item(), 0, 1e-2): batch.adv = (batch.adv - mean) / std return batch

Exemple #2

0

Afficher le fichier

def learn(self, batch: Batch, batch_size: int, repeat: int, **kwargs) -> Dict[str, List[float]]: self._batch = batch_size losses, clip_losses, vf_losses, ent_losses = [], [], [], [] v = [] old_log_prob = [] with torch.no_grad(): for b in batch.split(batch_size, shuffle=False): v.append(self.critic(b.obs)) old_log_prob.append( self(b).dist.log_prob( torch.tensor(b.act, device=v[0].device))) batch.v = torch.cat(v, dim=0) # old value dev = batch.v.device batch.act = torch.tensor(batch.act, dtype=torch.float, device=dev) batch.logp_old = torch.cat(old_log_prob, dim=0) batch.returns = torch.tensor(batch.returns, dtype=torch.float, device=dev).reshape(batch.v.shape) if self._rew_norm: mean, std = batch.returns.mean(), batch.returns.std() if std > self.__eps: batch.returns = (batch.returns - mean) / std batch.adv = batch.returns - batch.v if self._rew_norm: mean, std = batch.adv.mean(), batch.adv.std() if std > self.__eps: batch.adv = (batch.adv - mean) / std for _ in range(repeat): for b in batch.split(batch_size): dist = self(b).dist value = self.critic(b.obs) ratio = (dist.log_prob(b.act) - b.logp_old).exp().float() surr1 = ratio * b.adv surr2 = ratio.clamp(1. - self._eps_clip, 1. + self._eps_clip) * b.adv if self._dual_clip: clip_loss = -torch.max(torch.min(surr1, surr2), self._dual_clip * b.adv).mean() else: clip_loss = -torch.min(surr1, surr2).mean() clip_losses.append(clip_loss.item()) if self._value_clip: v_clip = b.v + (value - b.v).clamp(-self._eps_clip, self._eps_clip) vf1 = (b.returns - value).pow(2) vf2 = (b.returns - v_clip).pow(2) vf_loss = .5 * torch.max(vf1, vf2).mean() else: vf_loss = .5 * (b.returns - value).pow(2).mean() vf_losses.append(vf_loss.item()) e_loss = dist.entropy().mean() ent_losses.append(e_loss.item()) loss = clip_loss + self._w_vf * vf_loss - self._w_ent * e_loss losses.append(loss.item()) self.optim.zero_grad() loss.backward() nn.utils.clip_grad_norm_( list(self.actor.parameters()) + list(self.critic.parameters()), self._max_grad_norm) self.optim.step() return { 'loss': losses, 'loss/clip': clip_losses, 'loss/vf': vf_losses, 'loss/ent': ent_losses, }