Python PPOTrainer._increment_step Beispiele

Programmiersprache: Python

Namespace / Paketname: mlagents.trainers.ppo.trainer

Klasse / Typ: PPOTrainer

Methode / Funktion: _increment_step

Beispiele auf hotexamples.com: 3

Python PPOTrainer._increment_step - 3 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die mlagents.trainers.ppo.trainer.PPOTrainer._increment_step, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

PPOTrainer(30)

add_policy(13)

create_policy(8)

update_buffer(4)

policy(4)

increment_step(4)

_increment_step(3)

get_policy(3)

_update_policy(3)

advance(2)

add_rewards_outputs(2)

process_trajectory(2)

subscribe_trajectory_queue(2)

seed(1)

training_buffer(1)

_process_trajectory(1)

update_policy(1)

Beispiel #1

Datei anzeigen

def test_trainer_increment_step(ppo_optimizer, dummy_config):
    trainer_params = dummy_config
    mock_optimizer = mock.Mock()
    mock_optimizer.reward_signals = {}
    ppo_optimizer.return_value = mock_optimizer

    brain_params = BrainParameters(
        brain_name="test_brain",
        vector_observation_space_size=1,
        camera_resolutions=[],
        vector_action_space_size=[2],
        vector_action_descriptions=[],
        vector_action_space_type=0,
    )

    trainer = PPOTrainer(
        brain_params.brain_name, 0, trainer_params, True, False, 0, "0"
    )
    policy_mock = mock.Mock(spec=NNPolicy)
    policy_mock.get_current_step.return_value = 0
    step_count = (
        5
    )  # 10 hacked because this function is no longer called through trainer
    policy_mock.increment_step = mock.Mock(return_value=step_count)
    trainer.add_policy("testbehavior", policy_mock)

    trainer._increment_step(5, "testbehavior")
    policy_mock.increment_step.assert_called_with(5)
    assert trainer.step == step_count

Beispiel #2

Datei anzeigen

Datei: test_ppo.py Projekt: yirui-wang-0212/ml-agents

def test_trainer_increment_step(ppo_optimizer):
    trainer_params = PPO_CONFIG
    mock_optimizer = mock.Mock()
    mock_optimizer.reward_signals = {}
    ppo_optimizer.return_value = mock_optimizer

    trainer = PPOTrainer("test_brain", 0, trainer_params, True, False, 0, "0")
    policy_mock = mock.Mock(spec=NNPolicy)
    policy_mock.get_current_step.return_value = 0
    step_count = (
        5  # 10 hacked because this function is no longer called through trainer
    )
    policy_mock.increment_step = mock.Mock(return_value=step_count)
    trainer.add_policy("testbehavior", policy_mock)

    trainer._increment_step(5, "testbehavior")
    policy_mock.increment_step.assert_called_with(5)
    assert trainer.step == step_count

Beispiel #3

Datei anzeigen

Datei: test_ppo.py Projekt: rahzaazhar/ml-agents

def test_trainer_increment_step(ppo_optimizer, mock_create_model_saver):
    trainer_params = PPO_CONFIG
    mock_optimizer = mock.Mock()
    mock_optimizer.reward_signals = {}
    ppo_optimizer.return_value = mock_optimizer

    trainer = PPOTrainer("test_brain", 0, trainer_params, True, False, 0, "0")
    policy_mock = mock.Mock(spec=TFPolicy)
    policy_mock.get_current_step.return_value = 0
    step_count = (
        5  # 10 hacked because this function is no longer called through trainer
    )
    policy_mock.increment_step = mock.Mock(return_value=step_count)
    behavior_id = BehaviorIdentifiers.from_name_behavior_id(trainer.brain_name)
    trainer.add_policy(behavior_id, policy_mock)

    trainer._increment_step(5, trainer.brain_name)
    policy_mock.increment_step.assert_called_with(5)
    assert trainer.step == step_count