Python IdentityEnvMultiDiscrete示例

编程语言: Python

命名空间/包名称: stable_baselines.common.identity_env

hotexamples.com的示例: 5

Python IdentityEnvMultiDiscrete - 已找到5个示例。这些是从开源项目中提取的最受好评的stable_baselines.common.identity_env.IdentityEnvMultiDiscrete现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

IdentityEnvMultiDiscrete(5)

示例#1

显示文件

def test_identity_multidiscrete(model_class):
    """
    Test if the algorithm (with a given policy)
    can learn an identity transformation (i.e. return observation as an action)
    with a multidiscrete action space

    :param model_class: (BaseRLModel) A RL Model
    """
    env = DummyVecEnv([lambda: IdentityEnvMultiDiscrete(10)])

    model = model_class("MlpPolicy", env)
    model.learn(total_timesteps=1000, seed=0)

    n_trials = 1000
    reward_sum = 0
    obs = env.reset()
    for _ in range(n_trials):
        action, _ = model.predict(obs)
        obs, reward, _, _ = env.step(action)
        reward_sum += reward

    assert np.array(model.action_probability(obs)).shape == (2, 1, 10), \
        "Error: action_probability not returning correct shape"
    assert np.prod(model.action_probability(obs, actions=env.action_space.sample()).shape) == 1, \
        "Error: not scalar probability"

示例#2

显示文件

def test_identity_multi_discrete(model_class):
    """
    test the MultiDiscrete environment vectorisation detection

    :param model_class: (BaseRLModel) the RL model
    """
    check_shape(lambda: IdentityEnvMultiDiscrete(dim=10), model_class, (2, ),
                (1, 2))

示例#3

显示文件

def test_identity_multi_discrete(model_class):
    """
    test the MultiDiscrete environment vectorisation detection

    :param model_class: (BaseRLModel) the RL model
    """
    model = model_class(policy="MlpPolicy", env=DummyVecEnv([lambda: IdentityEnvMultiDiscrete(dim=10)]))

    env0 = IdentityEnvMultiDiscrete(dim=10)
    env1 = DummyVecEnv([lambda: IdentityEnvMultiDiscrete(dim=10)])

    n_trials = 100
    for env, expected_shape in [(env0, (2,)), (env1, (1, 2))]:
        obs = env.reset()
        for _ in range(n_trials):
            action, _ = model.predict(obs)
            assert np.array(action).shape == expected_shape
            obs, _, _, _ = env.step(action)

    # Free memory
    del model, env

示例#4

显示文件

文件： test_action_space.py 项目： jeehyun100/control_rl

def test_identity_multidiscrete(model_class):
    """
    Test if the algorithm (with a given policy)
    can learn an identity transformation (i.e. return observation as an action)
    with a multidiscrete action space

    :param model_class: (BaseRLModel) A RL Model
    """
    env = DummyVecEnv([lambda: IdentityEnvMultiDiscrete(10)])

    model = model_class("MlpPolicy", env)
    model.learn(total_timesteps=1000)
    evaluate_policy(model, env, n_eval_episodes=5)
    obs = env.reset()

    assert np.array(model.action_probability(obs)).shape == (2, 1, 10), \
        "Error: action_probability not returning correct shape"
    assert np.prod(model.action_probability(obs, actions=env.action_space.sample()).shape) == 1, \
        "Error: not scalar probability"

示例#5

显示文件

文件： test_action_space.py 项目： xlwoo1/stable-baselines

def test_identity_multidiscrete(model_class):
    """
    Test if the algorithm (with a given policy)
    can learn an identity transformation (i.e. return observation as an action)
    with a multidiscrete action space

    :param model_class: (BaseRLModel) A RL Model
    """
    env = DummyVecEnv([lambda: IdentityEnvMultiDiscrete(10)])

    model = model_class("MlpPolicy", env)
    model.learn(total_timesteps=1000, seed=0)

    n_trials = 1000
    reward_sum = 0
    obs = env.reset()
    for _ in range(n_trials):
        action, _ = model.predict(obs)
        obs, reward, _, _ = env.step(action)
        reward_sum += reward