Python Reward_observation_terminal 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: rlglued.types

hotexamples.com에서의 예제들: 4

Python Reward_observation_terminal - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 rlglued.types.Reward_observation_terminal에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

o(4)

r(4)

terminal(4)

예제 #1

파일 보기

파일: environment.py 프로젝트: evenmarbles/experiments

    def step(self, action):
        return_ro = Reward_observation_terminal()
        return_ro.r = self._calculate_reward(action)
        return_ro.o = Observation()
        return_ro.terminal = self._check_terminal(action)

        return return_ro

예제 #2

파일 보기

파일: environment.py 프로젝트: evenmarbles/experiments

    def step(self, action):
        return_ro = Reward_observation_terminal()
        return_ro.r = -1.0
        return_ro.o = Observation()
        if len(action.doubleArray) == 0:
            return_ro.terminal = True
        else:
            return_ro.terminal = False

        return return_ro

예제 #3

파일 보기

파일: sample_mines_environment.py 프로젝트: evenmarbles/rlglued

    def step(self, action):
        # Make sure the action is valid
        assert len(action.intArray) == 1, "Expected 1 integer action."
        assert action.intArray[0] >= 0, "Expected action to be in [0,3]"
        assert action.intArray[0] < 4, "Expected action to be in [0,3]"

        self.update_position(action.intArray[0])

        obs = Observation()
        obs.intArray = [self.calculate_flat_state()]

        return_ro = Reward_observation_terminal()
        return_ro.r = self.calculate_reward()
        return_ro.o = obs
        return_ro.terminal = self.check_current_terminal()

        return return_ro

예제 #4

파일 보기

파일: mountaincar.py 프로젝트: evenmarbles/rlpy

    def step(self, action):
        return_ro = Reward_observation_terminal()
        self._apply(action)
        self._render(self._sensors[0])

        return_ro.terminal = self._is_terminal()

        return_ro.r = -1.
        if return_ro.terminal:
            return_ro.r = .0

        if self._reward_noise > 0:
            return_ro.r += np.random.normal(scale=self._reward_noise)

        obs = Observation()
        obs.doubleArray = self._sensors.tolist()
        return_ro.o = obs

        return return_ro