Python PPOTrainer.get_policy Examples

Programming Language: Python

Namespace/Package Name: mlagents.trainers.ppo.trainer

Class/Type: PPOTrainer

Method/Function: get_policy

Examples at hotexamples.com: 3

Python PPOTrainer.get_policy - 3 examples found. These are the top rated real world Python examples of mlagents.trainers.ppo.trainer.PPOTrainer.get_policy extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

PPOTrainer(30)

add_policy(13)

create_policy(8)

update_buffer(4)

policy(4)

increment_step(4)

_increment_step(3)

get_policy(3)

_update_policy(3)

advance(2)

add_rewards_outputs(2)

process_trajectory(2)

subscribe_trajectory_queue(2)

seed(1)

training_buffer(1)

_process_trajectory(1)

update_policy(1)

Example #1

Show file

def test_add_get_policy(ppo_optimizer, dummy_config):
    brain_params = make_brain_parameters(
        discrete_action=False, visual_inputs=0, vec_obs_size=6
    )
    mock_optimizer = mock.Mock()
    mock_optimizer.reward_signals = {}
    ppo_optimizer.return_value = mock_optimizer

    dummy_config["summary_path"] = "./summaries/test_trainer_summary"
    dummy_config["model_path"] = "./models/test_trainer_models/TestModel"
    trainer = PPOTrainer(brain_params, 0, dummy_config, True, False, 0, "0")
    policy = mock.Mock(spec=NNPolicy)
    policy.get_current_step.return_value = 2000

    trainer.add_policy(brain_params.brain_name, policy)
    assert trainer.get_policy(brain_params.brain_name) == policy

    # Make sure the summary steps were loaded properly
    assert trainer.get_step == 2000
    assert trainer.next_summary_step > 2000

    # Test incorrect class of policy
    policy = mock.Mock()
    with pytest.raises(RuntimeError):
        trainer.add_policy(brain_params, policy)

Example #2

Show file

File: test_ppo.py Project: rahzaazhar/ml-agents

def test_add_get_policy(ppo_optimizer, mock_create_model_saver, dummy_config):
    mock_optimizer = mock.Mock()
    mock_optimizer.reward_signals = {}
    ppo_optimizer.return_value = mock_optimizer

    trainer = PPOTrainer("test_policy", 0, dummy_config, True, False, 0, "0")
    policy = mock.Mock(spec=TFPolicy)
    policy.get_current_step.return_value = 2000

    behavior_id = BehaviorIdentifiers.from_name_behavior_id(trainer.brain_name)
    trainer.add_policy(behavior_id, policy)
    assert trainer.get_policy("test_policy") == policy

    # Make sure the summary steps were loaded properly
    assert trainer.get_step == 2000

Example #3

Show file

File: test_ppo.py Project: yirui-wang-0212/ml-agents

def test_add_get_policy(ppo_optimizer, dummy_config):
    mock_optimizer = mock.Mock()
    mock_optimizer.reward_signals = {}
    ppo_optimizer.return_value = mock_optimizer

    trainer = PPOTrainer("test_policy", 0, dummy_config, True, False, 0, "0")
    policy = mock.Mock(spec=NNPolicy)
    policy.get_current_step.return_value = 2000

    trainer.add_policy("test_policy", policy)
    assert trainer.get_policy("test_policy") == policy

    # Make sure the summary steps were loaded properly
    assert trainer.get_step == 2000

    # Test incorrect class of policy
    policy = mock.Mock()
    with pytest.raises(RuntimeError):
        trainer.add_policy("test_policy", policy)