Python DiscreteParamEnvSampler.sample 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: brl_gym.wrapper_envs.env_sampler

메소드/함수: sample

hotexamples.com에서의 예제들: 2

Python DiscreteParamEnvSampler.sample - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 brl_gym.wrapper_envs.env_sampler.DiscreteParamEnvSampler.sample에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DiscreteParamEnvSampler(4)

sample(2)

자주 사용되는 메소드들

DiscreteParamEnvSampler (4)

sample (2)

예제 #1

파일 보기

class BayesHumanoidPushingEnv(BayesEnv):
    # Wrapper envs for mujoco envs
    def __init__(self, reset_params=True):
        env = HumanoidPushingEnv()
        self.estimator = ParamEnvDiscreteEstimator(env, discretization=discretization)

        self.env_sampler = DiscreteParamEnvSampler(env, discretization)
        super(BayesHumanoidPushingEnv, self).__init__(env, self.estimator)
        self.nominal_env = env
        self.reset_params = reset_params

    def reset(self):
        if self.reset_params:
            self.env = self.env_sampler.sample()
        return super().reset()

    def step(self, action):
        prev_belief = self.estimator.get_belief()
        prev_state = self.env.get_state()
        obs, reward, done, info = self.env.step(action)
        info['prev_state'] = prev_state
        info['curr_state'] = self.env.get_state()

        # Estimate
        self.estimator.estimate(action, obs, **info)
        belief = self.estimator.get_belief()
        info['belief'] = belief

        obs = np.concatenate([obs, belief], axis=0)
        return obs, reward, done, info

예제 #2

파일 보기

class ExplicitBayesHumanoidPushingEnv(ExplicitBayesEnv):
    def __init__(self, reset_params=True):
        env = HumanoidPushingEnv()
        self.estimator = ParamEnvDiscreteEstimator(env, discretization=discretization)

        self.env_sampler = DiscreteParamEnvSampler(env, discretization)
        self.env_sampler.param_space['friction']
        super(ExplicitBayesHumanoidPushingEnv, self).__init__(env, self.estimator)
        self.nominal_env = env

        self.observation_space = Dict(
            {"obs": env.observation_space, "zbel": self.estimator.belief_space})
        self.internal_observation_space = env.observation_space
        self.env = env
        self.reset_params = reset_params

    def _update_belief(self,
                             action,
                             obs,
                             **kwargs):
        # Estimate
        self.estimator.estimate(
                action, obs, **kwargs)
        belief = self.estimator.get_belief()
        return belief, kwargs

    def step(self, action):
        prev_state = self.env.get_state()
        obs, reward, done, info = self.env.step(action)
        info['prev_state'] = prev_state
        info['curr_state'] = self.env.get_state()

        bel, info = self._update_belief(
                                        action,
                                        obs,
                                        **info)
        true_param = self.env.get_params()
        friction = true_param['friction']

        exp1 = np.argwhere(self.env_sampler.param_sampler_space['friction'] == friction)[0,0]
        exp_id = exp1
        info['expert'] = exp_id

        return {'obs':obs, 'zbel':bel}, reward, done, info

    def reset(self):
        if self.reset_params:
            self.env = self.env_sampler.sample()
        obs = self.env.reset()
        self.estimator.reset()
        bel, _ = self._update_belief(action=None, obs=obs)
        self.last_obs = (obs, bel)
        return {'obs':obs, 'zbel':bel}