Esempi in Python per PPOTrainer.increment_step

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: mlagents.trainers.ppo.trainer

Classe/tipologia: PPOTrainer

Metodo/funzione: increment_step

Esempi su hotexamples.com: 4

PPOTrainer.increment_step in Python: 4 esempi trovati. Questi sono i migliori esempi reali in Python per mlagents.trainers.ppo.trainer.PPOTrainer.increment_step, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

PPOTrainer(30)

add_policy(13)

create_policy(8)

update_buffer(4)

policy(4)

increment_step(4)

_increment_step(3)

get_policy(3)

_update_policy(3)

advance(2)

add_rewards_outputs(2)

process_trajectory(2)

subscribe_trajectory_queue(2)

seed(1)

training_buffer(1)

_process_trajectory(1)

update_policy(1)

Esempio n. 1

Mostra file

File: test_ppo.py Progetto: varunsingh3000/Airplane-Game-in-Unity3d-using-Reinforcement-Learning

def test_trainer_increment_step(dummy_config):
    trainer_params = dummy_config
    brain_params = BrainParameters("test_brain", 1, 1, [], [2], [], 0)

    trainer = PPOTrainer(brain_params, 0, trainer_params, True, False, 0, "0", False)
    policy_mock = mock.Mock()
    step_count = 10
    policy_mock.increment_step = mock.Mock(return_value=step_count)
    trainer.policy = policy_mock

    trainer.increment_step(5)
    policy_mock.increment_step.assert_called_with(5)
    assert trainer.step == 10

Esempio n. 2

Mostra file

File: test_ppo.py Progetto: StepNeverStop/Staged-Experience-Mechanism

def test_trainer_increment_step():
    trainer_params = {
        "trainer": "ppo",
        "batch_size": 2048,
        "beta": 0.005,
        "buffer_size": 20480,
        "epsilon": 0.2,
        "gamma": 0.995,
        "hidden_units": 512,
        "lambd": 0.95,
        "learning_rate": 0.0003,
        "max_steps": "2e6",
        "memory_size": 256,
        "normalize": True,
        "num_epoch": 3,
        "num_layers": 3,
        "time_horizon": 1000,
        "sequence_length": 64,
        "summary_freq": 3000,
        "use_recurrent": False,
        "use_curiosity": False,
        "curiosity_strength": 0.01,
        "curiosity_enc_size": 128,
        "summary_path": "./summaries/test_trainer_summary",
        "model_path": "./models/test_trainer_models/TestModel",
        "keep_checkpoints": 5,
        "reward_signals": {
            "extrinsic": {
                "strength": 1.0,
                "gamma": 0.99
            }
        },
    }
    brain_params = BrainParameters("test_brain", 1, 1, [], [2], [], 0)

    trainer = PPOTrainer(brain_params, 0, trainer_params, True, False, 0, "0",
                         False)
    policy_mock = mock.Mock()
    step_count = 10
    policy_mock.increment_step = mock.Mock(return_value=step_count)
    trainer.policy = policy_mock

    trainer.increment_step(5)
    policy_mock.increment_step.assert_called_with(5)
    assert trainer.step == 10

Esempio n. 3

Mostra file

def test_trainer_increment_step(dummy_config):
    trainer_params = dummy_config
    brain_params = BrainParameters(
        brain_name="test_brain",
        vector_observation_space_size=1,
        camera_resolutions=[],
        vector_action_space_size=[2],
        vector_action_descriptions=[],
        vector_action_space_type=0,
    )

    trainer = PPOTrainer(brain_params, 0, trainer_params, True, False, 0, "0", False)
    policy_mock = mock.Mock()
    step_count = 10
    policy_mock.increment_step = mock.Mock(return_value=step_count)
    trainer.policy = policy_mock

    trainer.increment_step(5)
    policy_mock.increment_step.assert_called_with(5)
    assert trainer.step == 10

Esempio n. 4

Mostra file

File: test_ppo.py Progetto: valmsmith39a/ml-agents

def test_trainer_increment_step(dummy_config):
    trainer_params = dummy_config
    brain_params = BrainParameters(
        brain_name="test_brain",
        vector_observation_space_size=1,
        camera_resolutions=[],
        vector_action_space_size=[2],
        vector_action_descriptions=[],
        vector_action_space_type=0,
    )

    trainer = PPOTrainer(brain_params.brain_name, 0, trainer_params, True,
                         False, 0, "0", False)
    policy_mock = mock.Mock()
    step_count = (
        5
    )  # 10 hacked becausee this function is no longer called through trainer
    policy_mock.increment_step = mock.Mock(return_value=step_count)
    trainer.policy = policy_mock

    trainer.increment_step(5)
    print(trainer.policy.increment_step(5))
    policy_mock.increment_step.assert_called_with(5)
    assert trainer.step == step_count