Python ParallelSimulator.step 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: environments.simulator

클래스/타입: ParallelSimulator

메소드/함수: step

hotexamples.com에서의 예제들: 2

Python ParallelSimulator.step - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 environments.simulator.ParallelSimulator.step에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ParallelSimulator(7)

seed(3)

reset(2)

step(2)

자주 사용되는 메소드들

ParallelSimulator (7)

seed (3)

reset (2)

step (2)

예제 #1

파일 보기

class TestSimulator(TestCase):
    def setUp(self) -> None:
        traj_file = Path("/home/test/test.csv")
        self.batch_size = 32
        self.simulator = ParallelSimulator(traj_file,
                                           num_replicas=self.batch_size,
                                           max_state_len=5,
                                           max_traj_len=20)
        self.simulator.seed(1)

    def test_reset(self):
        obs = self.simulator.reset()
        self.assertIsInstance(obs[0], ReturnStateTuple)
        self.assertEqual(len(obs), self.batch_size)

    def test_step(self):
        self.simulator.reset()
        action = np.random.randint(1, 100, size=(self.batch_size, 5))
        next_state, done = self.simulator.step(action)
        self.assertEqual(len(next_state), self.batch_size)

    def test_multiple_steps(self):
        self.simulator.reset()
        action = np.random.randint(1, 100, size=(self.batch_size, 5))
        self.simulator.step(action)
        self.simulator.step(action)
        self.simulator.step(action)
        self.simulator.step(action)
        self.simulator.step(action)
        s = self.simulator.step(action)

    def test_run_to_end(self):
        obs = self.simulator.reset()
        action = np.random.randint(1, 100, size=(self.batch_size, 5))
        while len(obs) > 0:
            obs, _ = self.simulator.step(action)

예제 #2

파일 보기

파일: test_bpr_simulator.py 프로젝트: Arielliu3124/drl4rec-thesis

class TestSimulator(TestCase):
    def setUp(self) -> None:
        data_dir = Path("/home/alex/workspace/datasets/ml/ml-1m")
        self.batch_size = 1
        self.simulator = ParallelSimulator(data_dir / "test.csv",
                                           simulation_type=data_dir /
                                           "simulator/bpr/batch-rl-test/0",
                                           num_replicas=self.batch_size,
                                           max_state_len=10,
                                           variant="bpr",
                                           reward_type="item")
        self.simulator.seed(1)

    def test_reset(self):
        obs = self.simulator.reset()
        self.assertEqual(len(obs), self.batch_size)

    def test_step(self):
        self.simulator.reset()
        action = np.random.randint(1, 3000, size=(self.batch_size, 10))
        next_state, rewards, done, info = self.simulator.step(action)
        self.assertEqual(len(next_state), self.batch_size)

    def test_multiple_steps(self):
        self.simulator.reset()
        action = np.random.randint(1, 100, size=(self.batch_size, 5))
        done = True
        while not done:
            next_state, rewards, done, info = self.simulator.step(action)

    def test_break_soon(self):
        episode_lens = []
        rewardsep = []
        while True:
            obs = self.simulator.reset()
            if obs is None:
                break
            done = False
            e = 0
            action = np.random.randint(1, 30, size=(len(obs), 10))
            r = 0
            while not done:
                next_state, rewards, done, info = self.simulator.step(action)
                r += rewards
                e += 1
            episode_lens.append(e)
            rewardsep.append(r)
        print("repeated")
        print(np.mean(episode_lens), np.std(episode_lens))
        print(np.mean(rewardsep), np.std(rewardsep))

    def test_run_to_end_with_much_random(self):
        episode_lens = []
        rewardsep = []
        while True:
            obs = self.simulator.reset()
            if obs is None:
                break
            done = False
            e = 0
            while not done:
                action = np.random.randint(1, 3000, size=(len(obs), 10))
                obs, rewards, done, info = self.simulator.step(action)
                rewardsep.append(rewards.mean())
                e += 1
            episode_lens.append(e)
        print("random")
        print(np.mean(episode_lens), np.std(episode_lens))
        print(np.mean(rewardsep), np.std(rewardsep))

    def test_run_to_end_tricky(self):
        episode_lens = []
        rewardsep = []

        action = np.arange(1, 101).reshape(10, 10)

        while True:
            obs = self.simulator.reset()
            if obs is None:
                break
            done = False
            e = 0
            while not done:
                a = np.expand_dims(action[e % 10], 0)
                a = np.repeat(a, len(obs), axis=0)
                obs, rewards, done, info = self.simulator.step(a)
                rewardsep.append(rewards.mean())
                e += 1
            episode_lens.append(e)
        print("tricky")
        print(np.mean(episode_lens), np.std(episode_lens))
        print(np.mean(rewardsep), np.std(rewardsep))