Ejemplos de Normal.clip en Python

Lenguaje de programación: Python

Namespace/Package Name: torch.distributions

Clase / Tipo: Normal

Método / Función: clip

Ejemplos en hotexamples.com: 1

Python Normal.clip - 1 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de torch.distributions.Normal.clip extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Normal(30)

entropy(30)

sample(30)

rsample(30)

log_prob(30)

sum(30)

cdf(30)

sample_n(16)

size(6)

icdf(5)

permute(4)

expand(4)

loc(4)

detach(4)

cpu(4)

mean(4)

scale(3)

gather(3)

backward(3)

reshape(2)

mode(2)

new_zeros(2)

item(2)

log(2)

exp(2)

add_(1)

pow(1)

sort(1)

square(1)

squeeze(1)

perplexity(1)

clamp(1)

numpy(1)

max(1)

clamp_(1)

__init__(1)

float(1)

flatten(1)

chunk(1)

cuda(1)

contiguous(1)

clip(1)

clamp_min_(1)

logsumexp(1)

Ejemplo n.º 1

Mostrar archivo

    def _sample_trajectory(self, initial_states: Tensor, means: Tensor,
                           stds: Tensor) -> Tuple[Tensor, Tensor, Tensor]:
        """Randomly samples T actions and computes the trajectory.

        :returns: (sequence of states, sequence of actions, costs)
        """

        actions = Normal(means,
                         stds).sample(sample_shape=(self._num_rollouts, ))
        if self.max_action is not None:
            indices = torch.abs(actions) > self.max_action
            #print(indices.shape, self._num_rollouts)
            while indices.sum() > 0:
                actions[indices] = Normal(
                    means,
                    stds).sample(sample_shape=(self._num_rollouts, ))[indices]
                indices = torch.abs(actions) > self.max_action
            # not needed#
            actions = actions.clip(-self.max_action, self.max_action)

        # One more state than the time horizon because of the initial state.
        trajectories = torch.empty((self.no_models, self._num_rollouts,
                                    self._time_horizon + 1, self._state_dimen),
                                   device=initial_states.device)
        trajectories[:, :, 0, :] = initial_states
        objective_costs = torch.zeros((
            self.no_models,
            self._time_horizon,
            self._num_rollouts,
        ),
                                      device=initial_states.device)
        dones = torch.zeros((
            self.no_models,
            self._num_rollouts,
        ),
                            device=initial_states.device)

        for t in range(self._time_horizon):
            for d, dynamic in enumerate(self._dynamics):
                next_states, costs, done = dynamic.step(
                    trajectories[:, :, t, :].mean(0), actions[:, t, :])
                trajectories[d, :, t + 1, :] = next_states
                dones[d, :] = torch.maximum(done, dones[d, :])
                objective_costs[d, t, :] = (gamma)**t * costs * (
                    1 - dones[d, :])  #+ dones[d,:]*100
                #if t == 0 : print(costs[:3])#, trajectories[:, :2, t, 0].mean(0))

        objective_costs = torch.mean(objective_costs, 0)
        next_cost = objective_costs[0, :].clone()
        objective_costs = torch.sum(objective_costs, 0)

        return trajectories[0, :, :, :], actions, objective_costs, next_cost