Python EnvironmentParameterManager.update_lessonsの例

プログラミング言語: Python

名前空間/パッケージ名: mlagents.trainers.environment_parameter_manager

メソッド/関数: update_lessons

hotexamples.comのコード掲載数: 2

Python EnvironmentParameterManager.update_lessons - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのmlagents.trainers.environment_parameter_manager.EnvironmentParameterManager.update_lessonsの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

EnvironmentParameterManager(11)

get_current_lesson_number(2)

get_minimum_reward_buffer_size(2)

update_lessons(2)

get_current_samplers(1)

コード例 #1

ファイルを表示

ファイル: test_env_param_manager.py プロジェクト: wjsghtjf/ML_Agents_App

def test_curriculum_raises_all_completion_criteria_conversion():
    with pytest.warns(TrainerConfigWarning):
        run_options = RunOptions.from_dict(
            yaml.safe_load(test_bad_curriculum_all_competion_criteria_config_yaml)
        )

        param_manager = EnvironmentParameterManager(
            run_options.environment_parameters, 1337, False
        )
        assert param_manager.update_lessons(
            trainer_steps={"fake_behavior": 500},
            trainer_max_steps={"fake_behavior": 1000},
            trainer_reward_buffer={"fake_behavior": [1000] * 101},
        ) == (True, True)
        assert param_manager.update_lessons(
            trainer_steps={"fake_behavior": 500},
            trainer_max_steps={"fake_behavior": 1000},
            trainer_reward_buffer={"fake_behavior": [1000] * 101},
        ) == (True, True)
        assert param_manager.update_lessons(
            trainer_steps={"fake_behavior": 500},
            trainer_max_steps={"fake_behavior": 1000},
            trainer_reward_buffer={"fake_behavior": [1000] * 101},
        ) == (False, False)
        assert param_manager.get_current_lesson_number() == {"param_1": 2}

コード例 #2

ファイルを表示

ファイル: test_env_param_manager.py プロジェクト: wjsghtjf/ML_Agents_App

def test_create_manager():
    run_options = RunOptions.from_dict(yaml.safe_load(test_everything_config_yaml))
    param_manager = EnvironmentParameterManager(
        run_options.environment_parameters, 1337, False
    )
    assert param_manager.get_minimum_reward_buffer_size("fake_behavior") == 100
    assert param_manager.get_current_lesson_number() == {
        "param_1": 0,
        "param_2": 0,
        "param_3": 0,
    }
    assert param_manager.get_current_samplers() == {
        "param_1": ConstantSettings(seed=1337, value=1),
        "param_2": GaussianSettings(seed=1337 + 3, mean=4, st_dev=5),
        "param_3": ConstantSettings(seed=1337 + 3 + 1, value=20),
    }
    # Not enough episodes completed
    assert param_manager.update_lessons(
        trainer_steps={"fake_behavior": 500},
        trainer_max_steps={"fake_behavior": 1000},
        trainer_reward_buffer={"fake_behavior": [1000] * 99},
    ) == (False, False)
    # Not enough episodes reward
    assert param_manager.update_lessons(
        trainer_steps={"fake_behavior": 500},
        trainer_max_steps={"fake_behavior": 1000},
        trainer_reward_buffer={"fake_behavior": [1] * 101},
    ) == (False, False)
    assert param_manager.update_lessons(
        trainer_steps={"fake_behavior": 500},
        trainer_max_steps={"fake_behavior": 1000},
        trainer_reward_buffer={"fake_behavior": [1000] * 101},
    ) == (True, True)
    assert param_manager.get_current_lesson_number() == {
        "param_1": 1,
        "param_2": 0,
        "param_3": 0,
    }
    param_manager_2 = EnvironmentParameterManager(
        run_options.environment_parameters, 1337, restore=True
    )
    # The use of global status should make it so that the lesson numbers are maintained
    assert param_manager_2.get_current_lesson_number() == {
        "param_1": 1,
        "param_2": 0,
        "param_3": 0,
    }
    # No reset required
    assert param_manager.update_lessons(
        trainer_steps={"fake_behavior": 700},
        trainer_max_steps={"fake_behavior": 1000},
        trainer_reward_buffer={"fake_behavior": [0] * 101},
    ) == (True, False)
    assert param_manager.get_current_samplers() == {
        "param_1": UniformSettings(seed=1337 + 2, min_value=1, max_value=3),
        "param_2": GaussianSettings(seed=1337 + 3, mean=4, st_dev=5),
        "param_3": ConstantSettings(seed=1337 + 3 + 1, value=20),
    }