Python DDPGPer.DDPGPer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: machin.frame.algorithms.ddpg_per

클래스/타입: DDPGPer

메소드/함수: DDPGPer

hotexamples.com에서의 예제들: 6

Python DDPGPer.DDPGPer - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 machin.frame.algorithms.ddpg_per.DDPGPer.DDPGPer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DDPGPer(6)

act(1)

act_with_noise(1)

generate_config(1)

init_from_config(1)

load(1)

save(1)

store_transition(1)

update(1)

예제 #1

파일 보기

 def ddpg_per(self, train_config, device, dtype):
     c = train_config
     actor = smw(
         Actor(c.observe_dim, c.action_dim,
               c.action_range).type(dtype).to(device),
         device,
         device,
     )
     actor_t = smw(
         Actor(c.observe_dim, c.action_dim,
               c.action_range).type(dtype).to(device),
         device,
         device,
     )
     critic = smw(
         Critic(c.observe_dim, c.action_dim).type(dtype).to(device), device,
         device)
     critic_t = smw(
         Critic(c.observe_dim, c.action_dim).type(dtype).to(device), device,
         device)
     ddpg_per = DDPGPer(
         actor,
         actor_t,
         critic,
         critic_t,
         t.optim.Adam,
         nn.MSELoss(reduction="sum"),
         replay_device="cpu",
         replay_size=c.replay_size,
     )
     return ddpg_per

예제 #2

파일 보기

 def ddpg_per_vis(self, train_config, device, dtype, tmpdir):
     # not used for training, only used for testing apis
     c = train_config
     tmp_dir = tmpdir.make_numbered_dir()
     actor = smw(
         Actor(c.observe_dim, c.action_dim,
               c.action_range).type(dtype).to(device),
         device,
         device,
     )
     actor_t = smw(
         Actor(c.observe_dim, c.action_dim,
               c.action_range).type(dtype).to(device),
         device,
         device,
     )
     critic = smw(
         Critic(c.observe_dim, c.action_dim).type(dtype).to(device), device,
         device)
     critic_t = smw(
         Critic(c.observe_dim, c.action_dim).type(dtype).to(device), device,
         device)
     ddpg_per = DDPGPer(
         actor,
         actor_t,
         critic,
         critic_t,
         t.optim.Adam,
         nn.MSELoss(reduction="sum"),
         replay_device="cpu",
         replay_size=c.replay_size,
         visualize=True,
         visualize_dir=str(tmp_dir),
     )
     return ddpg_per

예제 #3

파일 보기

파일: test_ddpg_per.py 프로젝트: TrendingTechnology/machin

    def test_criterion(self, train_config, device, dtype):
        c = train_config
        actor = smw(
            Actor(c.observe_dim, c.action_dim, c.action_range).type(dtype).to(device),
            device,
            device,
        )
        actor_t = smw(
            Actor(c.observe_dim, c.action_dim, c.action_range).type(dtype).to(device),
            device,
            device,
        )
        critic = smw(
            Critic(c.observe_dim, c.action_dim).type(dtype).to(device), device, device
        )
        critic_t = smw(
            Critic(c.observe_dim, c.action_dim).type(dtype).to(device), device, device
        )
        with pytest.raises(
            RuntimeError, match="Criterion does not have the " "'reduction' property"
        ):

            def criterion(a, b):
                return a - b

            _ = DDPGPer(
                actor,
                actor_t,
                critic,
                critic_t,
                t.optim.Adam,
                criterion,
                replay_device="cpu",
                replay_size=c.replay_size,
            )

예제 #4

파일 보기

파일: test_ddpg_per.py 프로젝트: TrendingTechnology/machin

 def ddpg_per_train(self, train_config):
     c = train_config
     # cpu is faster for testing full training.
     actor = smw(Actor(c.observe_dim, c.action_dim, c.action_range), "cpu", "cpu")
     actor_t = smw(Actor(c.observe_dim, c.action_dim, c.action_range), "cpu", "cpu")
     critic = smw(Critic(c.observe_dim, c.action_dim), "cpu", "cpu")
     critic_t = smw(Critic(c.observe_dim, c.action_dim), "cpu", "cpu")
     ddpg_per = DDPGPer(
         actor,
         actor_t,
         critic,
         critic_t,
         t.optim.Adam,
         nn.MSELoss(reduction="sum"),
         replay_device="cpu",
         replay_size=c.replay_size,
     )
     return ddpg_per

예제 #5

파일 보기

파일: test_ddpg_per.py 프로젝트: mrshenli/machin

 def ddpg_per(self, train_config):
     c = train_config
     actor = smw(
         Actor(c.observe_dim, c.action_dim, c.action_range).to(c.device),
         c.device, c.device)
     actor_t = smw(
         Actor(c.observe_dim, c.action_dim, c.action_range).to(c.device),
         c.device, c.device)
     critic = smw(
         Critic(c.observe_dim, c.action_dim).to(c.device), c.device,
         c.device)
     critic_t = smw(
         Critic(c.observe_dim, c.action_dim).to(c.device), c.device,
         c.device)
     ddpg_per = DDPGPer(actor,
                        actor_t,
                        critic,
                        critic_t,
                        t.optim.Adam,
                        nn.MSELoss(reduction='sum'),
                        replay_device=c.device,
                        replay_size=c.replay_size)
     return ddpg_per

예제 #6

파일 보기

파일: agent.py 프로젝트: kenanz0630/drl4dypm

    def _build_model(self):

        actor = self._build_actor()
        actor_target = self._build_actor()
        critic = self._build_critic()
        critic_target = self._build_critic()

        optimizer = lambda params, lr: torch.optim.Adam(
            params, lr=lr, weight_decay=self.l2_reg)
        criterion = nn.MSELoss(reduction='sum')

        # DDPG with prioritized replay
        self.ddpg_per = DDPGPer(actor,
                                actor_target,
                                critic,
                                critic_target,
                                optimizer=optimizer,
                                criterion=criterion,
                                batch_size=self.batch_size,
                                actor_learning_rate=self.actor_learning_rate,
                                critic_learning_rate=self.critic_learning_rate,
                                discount=self.gamma,
                                replay_size=self.replay_capacity)