Python CategoricalMLPPolicy 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: garage.theano.policies

클래스/타입: CategoricalMLPPolicy

hotexamples.com에서의 예제들: 2

Python CategoricalMLPPolicy - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 garage.theano.policies.CategoricalMLPPolicy에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

CategoricalMLPPolicy(2)

자주 사용되는 메소드들

CategoricalMLPPolicy (2)

예제 #1

파일 보기

파일: trpo_gym_cartpole.py 프로젝트: venutrue/garage

def run_task(*_):
    # Please note that different environments with different action spaces may
    # require different policies. For example with a Discrete action space, a
    # CategoricalMLPPolicy works, but for a Box action space may need to use
    # a GaussianMLPPolicy (see the trpo_gym_pendulum.py example)
    env = TheanoEnv(normalize(gym.make("CartPole-v0")))

    policy = CategoricalMLPPolicy(env_spec=env.spec, hidden_sizes=(32, 32))

    baseline = LinearFeatureBaseline(env_spec=env.spec)

    algo = TRPO(
        env=env,
        policy=policy,
        baseline=baseline,
        batch_size=4000,
        max_path_length=env.max_episode_steps,
        n_itr=50,
        discount=0.99,
        step_size=0.01,
        # Uncomment both lines (this and the plot parameter below) to enable
        # plotting
        plot=True,
    )
    algo.train()

예제 #2

파일 보기

파일: trpo_gym_Acrobot-v1.py 프로젝트: venutrue/garage

def run_task(*_):
    env = TheanoEnv(normalize(gym.make("Acrobot-v1")))

    policy = CategoricalMLPPolicy(env_spec=env.spec, hidden_sizes=(32, 32))

    baseline = LinearFeatureBaseline(env_spec=env.spec)

    algo = TRPO(
        env=env,
        policy=policy,
        baseline=baseline,
        batch_size=4000,
        max_path_length=env.max_episode_steps,
        n_itr=50,
        discount=0.99,
        step_size=0.01,
        plot=True,
    )
    algo.train()