Python create_env 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: env_utils

메소드/함수: create_env

hotexamples.com에서의 예제들: 5

Python create_env - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 env_utils.create_env에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: test_episodes.py 프로젝트: shafiahmed/flax

def policy_test(n_episodes: int, model: flax.nn.base.Model, game: str):
    """Perform a test of the policy in Atari environment.

  Args:
    n_episodes: number of full Atari episodes to test on
    model: the actor-critic model being tested
    game: defines the Atari game to test on

  Returns:
    total_reward: obtained score
  """
    test_env = env_utils.create_env(game, clip_rewards=False)
    for _ in range(n_episodes):
        obs = test_env.reset()
        state = obs[None, ...]  # add batch dimension
        total_reward = 0.0
        for t in itertools.count():
            log_probs, _ = agent.policy_action(model, state)
            probs = onp.exp(onp.array(log_probs, dtype=onp.float32))
            probabilities = probs[0] / probs[0].sum()
            action = onp.random.choice(probs.shape[1], p=probabilities)
            obs, reward, done, _ = test_env.step(action)
            total_reward += reward
            next_state = obs[None, ...] if not done else None
            state = next_state
            if done:
                break
    return total_reward

예제 #2

파일 보기

def policy_test(n_episodes: int, apply_fn: Callable[..., Any],
                params: flax.core.frozen_dict.FrozenDict, game: str):
    """Perform a test of the policy in Atari environment.

  Args:
    n_episodes: number of full Atari episodes to test on
    apply_fn: the actor-critic apply function
    params: actor-critic model parameters, they define the policy being tested
    game: defines the Atari game to test on

  Returns:
    total_reward: obtained score
  """
    test_env = env_utils.create_env(game, clip_rewards=False)
    for _ in range(n_episodes):
        obs = test_env.reset()
        state = obs[None, ...]  # add batch dimension
        total_reward = 0.0
        for t in itertools.count():
            log_probs, _ = agent.policy_action(apply_fn, params, state)
            probs = np.exp(np.array(log_probs, dtype=np.float32))
            probabilities = probs[0] / probs[0].sum()
            action = np.random.choice(probs.shape[1], p=probabilities)
            obs, reward, done, _ = test_env.step(action)
            total_reward += reward
            next_state = obs[None, ...] if not done else None
            state = next_state
            if done:
                break
    return total_reward

예제 #3

파일 보기

 def test_step(self):
     frame_shape = (84, 84, 4)
     game = self.choose_random_game()
     env = env_utils.create_env(game, clip_rewards=True)
     obs = env.reset()
     actions = [1, 2, 3, 0]
     for a in actions:
         obs, reward, done, info = env.step(a)
         self.assertEqual(obs.shape, frame_shape)
         self.assertTrue(reward <= 1. and reward >= -1.)
         self.assertTrue(isinstance(done, bool))
         self.assertTrue(isinstance(info, dict))

예제 #4

파일 보기

def rcv_action_send_exp(conn, game: str):
    """Run the remote agents.

  Receive action from the main learner, perform one step of simulation and
  send back collected experience.
  """
    env = env_utils.create_env(game, clip_rewards=True)
    while True:
        obs = env.reset()
        done = False
        # Observations fetched from Atari env need additional batch dimension.
        state = obs[None, ...]
        while not done:
            conn.send(state)
            action = conn.recv()
            obs, reward, done, _ = env.step(action)
            next_state = obs[None, ...] if not done else None
            experience = (state, action, reward, done)
            conn.send(experience)
            if done:
                break
            state = next_state

예제 #5

파일 보기

 def test_creation(self):
     frame_shape = (84, 84, 4)
     game = self.choose_random_game()
     env = env_utils.create_env(game, clip_rewards=True)
     obs = env.reset()
     self.assertEqual(obs.shape, frame_shape)