Python TimeLimit._max_episode_steps 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: gym.wrappers

클래스/타입: TimeLimit

메소드/함수: _max_episode_steps

hotexamples.com에서의 예제들: 2

Python TimeLimit._max_episode_steps - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 gym.wrappers.TimeLimit._max_episode_steps에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

TimeLimit(30)

step(29)

reset(27)

render(12)

close(10)

seed(10)

_max_episode_steps(2)

get_level(2)

spec(1)

set_mass(1)

set_gravity(1)

nm_encoder(1)

__init__(1)

kwargs(1)

is_closed(1)

gravity(1)

get_mass(1)

train_model(1)

예제 #1

파일 보기

    def _generate_real_env_with_kwargs(self, kwargs, env_name):
        # generate environment class
        # todo: make generic (e.g. check if class is existent in bandit.py or gridworld.py)
        if env_name == "Bandit":
            env = TimeLimit(BanditFixedPermutedGaussian())
        elif env_name == "EmptyRoom22":
            env = TimeLimit(EmptyRoom22())
        elif env_name == "EmptyRoom23":
            env = TimeLimit(EmptyRoom23())
        elif env_name == "EmptyRoom33":
            env = TimeLimit(EmptyRoom33())
        elif env_name == "WallRoom":
            env = TimeLimit(WallRoom())
        elif env_name == "HoleRoom":
            env = TimeLimit(HoleRoom())
        elif env_name == "HoleRoomLarge":
            env = TimeLimit(HoleRoomLarge())
        elif env_name == "HoleRoomLargeShifted":
            env = TimeLimit(HoleRoomLargeShifted())
        elif env_name == "Cliff":
            env = TimeLimit(Cliff())
        else:
            env = gym.make(env_name)

        for key, value in kwargs.items():
            setattr(env, key, value)

        # for episode termination
        env._max_episode_steps = int(kwargs["max_steps"])
        # for model save/load
        env.kwargs = kwargs

        return env

예제 #2

파일 보기

파일: a2c_continuous_action.py 프로젝트: perfmjs/cleanrl

random.seed(args.seed)
np.random.seed(args.seed)
torch.manual_seed(args.seed)
torch.backends.cudnn.deterministic = args.torch_deterministic
env.seed(args.seed)
env.action_space.seed(args.seed)
env.observation_space.seed(args.seed)
input_shape, preprocess_obs_fn = preprocess_obs_space(env.observation_space,
                                                      device)
output_shape = preprocess_ac_space(env.action_space)
# respect the default timelimit
if int(args.episode_length):
    if not isinstance(env, TimeLimit):
        env = TimeLimit(env, int(args.episode_length))
    else:
        env._max_episode_steps = int(args.episode_length)
else:
    args.episode_length = env._max_episode_steps if isinstance(
        env, TimeLimit) else 200
if args.capture_video:
    env = Monitor(env, f'videos/{experiment_name}')
assert isinstance(env.action_space,
                  Box), "only continuous action space is supported"


# ALGO LOGIC: initialize agent here:
class Policy(nn.Module):
    def __init__(self):
        super(Policy, self).__init__()
        self.fc1 = nn.Linear(input_shape, 120)
        self.fc2 = nn.Linear(120, 84)