Python AttrDict.action_distribution 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: utils.utils

클래스/타입: AttrDict

메소드/함수: action_distribution

hotexamples.com에서의 예제들: 3

Python AttrDict.action_distribution - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 utils.utils.AttrDict.action_distribution에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

AttrDict(30)

items(6)

action_distribution(3)

prediction(2)

copying(2)

obs(2)

experience(2)

ratio_mean(1)

ratio_max(1)

policy_loss(1)

old_prob(1)

num_sgd_steps(1)

max_abs_logprob(1)

loss(1)

kl_divergence(1)

from_data(1)

graph_filename(1)

grad_norm(1)

act(1)

fraction_clipped(1)

exploration_loss(1)

entropy_loss(1)

entropy(1)

adv_std(1)

adv_min(1)

adv_max(1)

adv(1)

adam_max_second_moment(1)

ratio_min(1)

예제 #1

파일 보기

    def forward_tail(self, core_output, with_action_distribution=False):

        self.termination_prob = self.termination(core_output)
        self.termination_mask = torch.where(
            self.termination_prob > torch.rand_like(self.termination_prob),
            torch.ones(1, device=self.termination_prob.device),
            torch.zeros(1, device=self.termination_prob.device))

        values = self.critic_linear(core_output)
        action_distribution_params, action_distribution = self.action_parameterization(core_output)

        # for non-trivial action spaces it is faster to do these together
        actions, log_prob_actions = sample_actions_log_probs(action_distribution)

        # perhaps `action_logits` is not the best name here since we now support continuous actions
        result = AttrDict(
            dict(
                actions=actions,  # (B * O) x (num_actions/D)
                # B x num_action_logits x O -> (B * O) x num_action_logits
                action_logits=action_distribution_params.reshape(-1,
                                                                 action_distribution.num_actions),
                log_prob_actions=log_prob_actions,  # (B * O) x 1
                values=values,
                termination_prob=self.termination_prob,
                termination_mask=self.termination_mask,
            ))

        if with_action_distribution:
            result.action_distribution = action_distribution

        return result

예제 #2

파일 보기

파일: model.py 프로젝트: xcidar/sample-factory

    def forward_tail(self, core_output, with_action_distribution=False):
        core_outputs = core_output.chunk(len(self.cores), dim=1)

        # first core output corresponds to the actor
        action_distribution_params, action_distribution = self.action_parameterization(
            core_outputs[0])
        # for non-trivial action spaces it is faster to do these together
        actions, log_prob_actions = sample_actions_log_probs(
            action_distribution)

        # second core output corresponds to the critic
        values = self.critic_linear(core_outputs[1])

        result = AttrDict(
            dict(
                actions=actions,
                action_logits=action_distribution_params,
                log_prob_actions=log_prob_actions,
                values=values,
            ))

        if with_action_distribution:
            result.action_distribution = action_distribution

        return result

예제 #3

파일 보기

    def forward_tail(self, core_output, with_action_distribution=False):
        values = self.critic_linear(core_output)

        action_distribution_params, action_distribution = self.action_parameterization(core_output)

        # for non-trivial action spaces it is faster to do these together
        actions, log_prob_actions = sample_actions_log_probs(action_distribution)

        result = AttrDict(dict(
            actions=actions,
            action_logits=action_distribution_params,  # perhaps `action_logits` is not the best name here since we now support continuous actions
            log_prob_actions=log_prob_actions,
            values=values,
        ))

        if with_action_distribution:
            result.action_distribution = action_distribution

        return result