Python CategoricalMLPPolicyの例

プログラミング言語: Python

名前空間/パッケージ名: garage.theano.policies

hotexamples.comのコード掲載数: 2

Python CategoricalMLPPolicy - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのgarage.theano.policies.CategoricalMLPPolicyの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

CategoricalMLPPolicy(2)

よく使われるメソッド

CategoricalMLPPolicy (2)

コード例 #1

ファイルを表示

ファイル: trpo_gym_cartpole.py プロジェクト: venutrue/garage

def run_task(*_):
    # Please note that different environments with different action spaces may
    # require different policies. For example with a Discrete action space, a
    # CategoricalMLPPolicy works, but for a Box action space may need to use
    # a GaussianMLPPolicy (see the trpo_gym_pendulum.py example)
    env = TheanoEnv(normalize(gym.make("CartPole-v0")))

    policy = CategoricalMLPPolicy(env_spec=env.spec, hidden_sizes=(32, 32))

    baseline = LinearFeatureBaseline(env_spec=env.spec)

    algo = TRPO(
        env=env,
        policy=policy,
        baseline=baseline,
        batch_size=4000,
        max_path_length=env.max_episode_steps,
        n_itr=50,
        discount=0.99,
        step_size=0.01,
        # Uncomment both lines (this and the plot parameter below) to enable
        # plotting
        plot=True,
    )
    algo.train()

コード例 #2

ファイルを表示

ファイル: trpo_gym_Acrobot-v1.py プロジェクト: venutrue/garage

def run_task(*_):
    env = TheanoEnv(normalize(gym.make("Acrobot-v1")))

    policy = CategoricalMLPPolicy(env_spec=env.spec, hidden_sizes=(32, 32))

    baseline = LinearFeatureBaseline(env_spec=env.spec)

    algo = TRPO(
        env=env,
        policy=policy,
        baseline=baseline,
        batch_size=4000,
        max_path_length=env.max_episode_steps,
        n_itr=50,
        discount=0.99,
        step_size=0.01,
        plot=True,
    )
    algo.train()