Python NormalizeReward示例

编程语言: Python

命名空间/包名称: gym.wrappers.normalize

类/类型: NormalizeReward

hotexamples.com的示例: 2

Python NormalizeReward - 已找到2个示例。这些是从开源项目中提取的最受好评的gym.wrappers.normalize.NormalizeReward现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

NormalizeReward(2)

reset(1)

step(1)

示例#1

显示文件

文件： test_normalize.py 项目： chksi/gym

def test_normalize_return_vector_env():
    env_fns = [make_env(0), make_env(1)]
    envs = gym.vector.SyncVectorEnv(env_fns)
    envs = NormalizeReward(envs)
    obs = envs.reset()
    obs, reward, _, _ = envs.step(envs.action_space.sample())
    assert_almost_equal(
        envs.return_rms.mean,
        np.mean([1.5]),  # the mean of first returns [[1, 2]]
        decimal=4,
    )
    obs, reward, _, _ = envs.step(envs.action_space.sample())
    assert_almost_equal(
        envs.return_rms.mean,
        np.mean(
            [[1, 2], [2 + envs.gamma * 1, 3 + envs.gamma * 2]]
        ),  # the mean of first and second returns [[1, 2], [2 + envs.gamma * 1, 3 + envs.gamma * 2]]
        decimal=4,
    )

示例#2

显示文件

文件： test_normalize.py 项目： chksi/gym

def test_normalize_return():
    env = DummyRewardEnv(return_reward_idx=0)
    env = NormalizeReward(env)
    env.reset()
    env.step(env.action_space.sample())
    assert_almost_equal(
        env.return_rms.mean,
        np.mean([1]),  # [first return]
        decimal=4,
    )
    env.step(env.action_space.sample())
    assert_almost_equal(
        env.return_rms.mean,
        np.mean([2 + env.gamma * 1, 1]),  # [second return, first return]
        decimal=4,
    )