Python TFPolicy.initializeの例

プログラミング言語: Python

名前空間/パッケージ名: mlagents.trainers.policy.tf_policy

クラス/型: TFPolicy

メソッド/関数: initialize

hotexamples.comのコード掲載数: 4

Python TFPolicy.initialize - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのmlagents.trainers.policy.tf_policy.TFPolicy.initializeの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

TFPolicy(13)

get_current_step(7)

create_tf_graph(6)

get_weights(4)

initialize(4)

init_load_weights(3)

update_normalization(3)

_convert_version_string(2)

set_step(2)

broadcast_global_variables(1)

create_input_placeholders(1)

evaluate(1)

first_normalization_update(1)

increment_step(1)

initialize_or_load(1)

コード例 #1

ファイルを表示

ファイル: test_bcmodule.py プロジェクト: vitoJackLove/ml-agents

def create_bc_module(mock_behavior_specs, bc_settings, use_rnn, tanhresample):
    # model_path = env.external_brain_names[0]
    trainer_config = TrainerSettings()
    trainer_config.network_settings.memory = (NetworkSettings.MemorySettings()
                                              if use_rnn else None)
    policy = TFPolicy(0, mock_behavior_specs, trainer_config, tanhresample,
                      tanhresample)
    with policy.graph.as_default():
        bc_module = BCModule(
            policy,
            policy_learning_rate=trainer_config.hyperparameters.learning_rate,
            default_batch_size=trainer_config.hyperparameters.batch_size,
            default_num_epoch=3,
            settings=bc_settings,
        )
    policy.initialize(
    )  # Normally the optimizer calls this after the BCModule is created
    return bc_module

コード例 #2

ファイルを表示

ファイル: test_nn_policy.py プロジェクト: isk03276/extended-ml-agents

def test_step_overflow():
    behavior_spec = mb.setup_test_behavior_specs(use_discrete=True,
                                                 use_visual=False,
                                                 vector_action_space=[2],
                                                 vector_obs_space=1)

    policy = TFPolicy(
        0,
        behavior_spec,
        TrainerSettings(network_settings=NetworkSettings(normalize=True)),
        create_tf_graph=False,
    )
    policy.create_input_placeholders()
    policy.initialize()

    policy.set_step(2**31 - 1)
    assert policy.get_current_step() == 2**31 - 1
    policy.increment_step(3)
    assert policy.get_current_step() == 2**31 + 2

コード例 #3

ファイルを表示

ファイル: test_sac.py プロジェクト: vitoJackLove/ml-agents

def create_sac_optimizer_mock(dummy_config, use_rnn, use_discrete, use_visual):
    mock_brain = mb.setup_test_behavior_specs(
        use_discrete,
        use_visual,
        vector_action_space=DISCRETE_ACTION_SPACE
        if use_discrete else VECTOR_ACTION_SPACE,
        vector_obs_space=VECTOR_OBS_SPACE if not use_visual else 0,
    )
    trainer_settings = dummy_config
    trainer_settings.network_settings.memory = (NetworkSettings.MemorySettings(
        sequence_length=16, memory_size=10) if use_rnn else None)
    policy = TFPolicy(0,
                      mock_brain,
                      trainer_settings,
                      "test",
                      False,
                      create_tf_graph=False)
    optimizer = SACOptimizer(policy, trainer_settings)
    policy.initialize()
    return optimizer

コード例 #4

ファイルを表示

def _create_ppo_optimizer_ops_mock(dummy_config, use_rnn, use_discrete, use_visual):
    mock_specs = mb.setup_test_behavior_specs(
        use_discrete,
        use_visual,
        vector_action_space=DISCRETE_ACTION_SPACE
        if use_discrete
        else VECTOR_ACTION_SPACE,
        vector_obs_space=VECTOR_OBS_SPACE,
    )

    trainer_settings = attr.evolve(dummy_config, framework=FrameworkType.TENSORFLOW)
    trainer_settings.network_settings.memory = (
        NetworkSettings.MemorySettings(sequence_length=16, memory_size=10)
        if use_rnn
        else None
    )
    policy = TFPolicy(
        0, mock_specs, trainer_settings, "test", False, create_tf_graph=False
    )
    optimizer = PPOOptimizer(policy, trainer_settings)
    policy.initialize()
    return optimizer