Python TFPolicy.initialize 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: mlagents.trainers.policy.tf_policy

클래스/타입: TFPolicy

메소드/함수: initialize

hotexamples.com에서의 예제들: 4

Python TFPolicy.initialize - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 mlagents.trainers.policy.tf_policy.TFPolicy.initialize에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

TFPolicy(13)

get_current_step(7)

create_tf_graph(6)

get_weights(4)

initialize(4)

init_load_weights(3)

update_normalization(3)

_convert_version_string(2)

set_step(2)

broadcast_global_variables(1)

create_input_placeholders(1)

evaluate(1)

first_normalization_update(1)

increment_step(1)

initialize_or_load(1)

예제 #1

파일 보기

파일: test_bcmodule.py 프로젝트: vitoJackLove/ml-agents

def create_bc_module(mock_behavior_specs, bc_settings, use_rnn, tanhresample):
    # model_path = env.external_brain_names[0]
    trainer_config = TrainerSettings()
    trainer_config.network_settings.memory = (NetworkSettings.MemorySettings()
                                              if use_rnn else None)
    policy = TFPolicy(0, mock_behavior_specs, trainer_config, tanhresample,
                      tanhresample)
    with policy.graph.as_default():
        bc_module = BCModule(
            policy,
            policy_learning_rate=trainer_config.hyperparameters.learning_rate,
            default_batch_size=trainer_config.hyperparameters.batch_size,
            default_num_epoch=3,
            settings=bc_settings,
        )
    policy.initialize(
    )  # Normally the optimizer calls this after the BCModule is created
    return bc_module

예제 #2

파일 보기

파일: test_nn_policy.py 프로젝트: isk03276/extended-ml-agents

def test_step_overflow():
    behavior_spec = mb.setup_test_behavior_specs(use_discrete=True,
                                                 use_visual=False,
                                                 vector_action_space=[2],
                                                 vector_obs_space=1)

    policy = TFPolicy(
        0,
        behavior_spec,
        TrainerSettings(network_settings=NetworkSettings(normalize=True)),
        create_tf_graph=False,
    )
    policy.create_input_placeholders()
    policy.initialize()

    policy.set_step(2**31 - 1)
    assert policy.get_current_step() == 2**31 - 1
    policy.increment_step(3)
    assert policy.get_current_step() == 2**31 + 2

예제 #3

파일 보기

파일: test_sac.py 프로젝트: vitoJackLove/ml-agents

def create_sac_optimizer_mock(dummy_config, use_rnn, use_discrete, use_visual):
    mock_brain = mb.setup_test_behavior_specs(
        use_discrete,
        use_visual,
        vector_action_space=DISCRETE_ACTION_SPACE
        if use_discrete else VECTOR_ACTION_SPACE,
        vector_obs_space=VECTOR_OBS_SPACE if not use_visual else 0,
    )
    trainer_settings = dummy_config
    trainer_settings.network_settings.memory = (NetworkSettings.MemorySettings(
        sequence_length=16, memory_size=10) if use_rnn else None)
    policy = TFPolicy(0,
                      mock_brain,
                      trainer_settings,
                      "test",
                      False,
                      create_tf_graph=False)
    optimizer = SACOptimizer(policy, trainer_settings)
    policy.initialize()
    return optimizer

예제 #4

파일 보기

def _create_ppo_optimizer_ops_mock(dummy_config, use_rnn, use_discrete, use_visual):
    mock_specs = mb.setup_test_behavior_specs(
        use_discrete,
        use_visual,
        vector_action_space=DISCRETE_ACTION_SPACE
        if use_discrete
        else VECTOR_ACTION_SPACE,
        vector_obs_space=VECTOR_OBS_SPACE,
    )

    trainer_settings = attr.evolve(dummy_config, framework=FrameworkType.TENSORFLOW)
    trainer_settings.network_settings.memory = (
        NetworkSettings.MemorySettings(sequence_length=16, memory_size=10)
        if use_rnn
        else None
    )
    policy = TFPolicy(
        0, mock_specs, trainer_settings, "test", False, create_tf_graph=False
    )
    optimizer = PPOOptimizer(policy, trainer_settings)
    policy.initialize()
    return optimizer