Python boolean_action_penalty 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: flow.core.rewards

메소드/함수: boolean_action_penalty

hotexamples.com에서의 예제들: 6

Python boolean_action_penalty - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 flow.core.rewards.boolean_action_penalty에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

 def compute_reward(self, rl_actions, **kwargs):
     """See class definition."""
     num_rl = self.k.vehicle.num_rl_vehicles
     lane_change_acts = np.abs(np.round(rl_actions[1::2])[:num_rl])
     return (rewards.desired_velocity(self) + rewards.rl_forward_progress(
         self, gain=0.1) - rewards.boolean_action_penalty(
             lane_change_acts, gain=1.0))

예제 #2

파일 보기

    def compute_reward(self, rl_actions, **kwargs):
        """See class definition."""
        if self.test:
            return 0

        return - rewards.min_delay_unscaled(self) \
            - rewards.boolean_action_penalty(rl_actions >= 0.5, gain=1.0)

예제 #3

파일 보기

파일: DoubleLaneEnv.py 프로젝트: mayankiitg/TrafficLight-RL

    def compute_reward(self, rl_actions, **kwargs):
        """See class definition."""
        r = 0
        if rl_actions is not None:
            r = -rewards.boolean_action_penalty(rl_actions >= 0.5, gain=2)

        if self.env_params.evaluate:
            r += -rewards.min_delay_unscaled(self)
            #print(f"Reward computed: {r}, rl_actions: {rl_actions}")

        else:
            r += (-rewards.min_delay_unscaled(self) +
                  rewards.penalize_standstill(self, gain=0.2))
        print(f"Reward computed: {r}, rl_actions: {rl_actions}")
        return r

예제 #4

파일 보기

파일: traffic_light_grid.py 프로젝트: yongxiang/flow

 def compute_reward(self, rl_actions, **kwargs):
     """See class definition."""
     if self.env_params.evaluate:
         return -rewards.min_delay_unscaled(self)
     else:
         """
         print('delay penalty:', -rewards.min_delay_unscaled(self))
         print('standstill penalty:', rewards.penalize_standstill(self, gain=0.2))
         print('action penalty:', -rewards.boolean_action_penalty(rl_actions >= 0.5, gain=0.2))
         """
         #return (- rewards.min_delay_unscaled(self) +
         #        rewards.penalize_standstill(self, gain=0.2))
         return (
             -rewards.min_delay_unscaled(self) -
             rewards.boolean_action_penalty(rl_actions >= 0.5, gain=0.01) -
             rewards.waiting_penalty(self, gain=0.01))

예제 #5

파일 보기

    def test_boolean_action_penalty(self):
        """Test the boolean_action_penalty method."""
        actions = [False, False, False, False, False]
        self.assertEqual(boolean_action_penalty(actions, gain=1), 0)
        self.assertEqual(boolean_action_penalty(actions, gain=2), 0)

        actions = [True, False, False, False, False]
        self.assertEqual(boolean_action_penalty(actions, gain=1), 1)
        self.assertEqual(boolean_action_penalty(actions, gain=2), 2)

        actions = [True, False, False, True, False]
        self.assertEqual(boolean_action_penalty(actions, gain=1), 2)
        self.assertEqual(boolean_action_penalty(actions, gain=2), 4)

예제 #6

파일 보기

파일: green_wave_env.py 프로젝트: AliBaheri/flow

 def compute_reward(self, rl_actions, **kwargs):
     """See class definition."""
     # penalize traffic light changes for occurring
     return -rewards.boolean_action_penalty(rl_actions >= 0.5, gain=1.0)