Esempi in Python per AddGaussianNoise.get_action

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: garage.np.exploration_policies

Classe/tipologia: AddGaussianNoise

Metodo/funzione: get_action

Esempi su hotexamples.com: 3

AddGaussianNoise.get_action in Python: 3 esempi trovati. Questi sono i migliori esempi reali in Python per garage.np.exploration_policies.AddGaussianNoise.get_action, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

AddGaussianNoise(13)

get_action(3)

_sigma(2)

get_param_values(1)

reset(1)

set_param_values(1)

update(1)

Esempio n. 1

Mostra file

def test_decay_period(env):
    policy = ConstantPolicy(env.action_space.sample())
    exp_policy = AddGaussianNoise(env,
                                  policy,
                                  total_timesteps=2,
                                  max_sigma=1.,
                                  min_sigma=0.)
    assert (exp_policy.get_action(None)[0] != policy.get_action(None)[0]).all()
    assert (exp_policy.get_action(None)[0] != policy.get_action(None)[0]).all()
    assert (exp_policy.get_action(None)[0] == policy.get_action(None)[0]).all()

Esempio n. 2

Mostra file

def test_params(env):
    policy1 = ConstantPolicy(env.action_space.sample())
    policy2 = ConstantPolicy(env.action_space.sample())
    assert (policy1.get_action(None)[0] != policy2.get_action(None)[0]).all()

    exp_policy1 = AddGaussianNoise(env, policy1, 1)
    exp_policy2 = AddGaussianNoise(env, policy2, 1)
    exp_policy2.get_action(None)

    assert exp_policy1._sigma() != exp_policy2._sigma()

    exp_policy1.set_param_values(exp_policy2.get_param_values())

    assert (policy1.get_action(None)[0] == policy2.get_action(None)[0]).all()
    assert exp_policy1._sigma() == exp_policy2._sigma()

Esempio n. 3

Mostra file

def test_update(env):
    policy = ConstantPolicy(env.action_space.sample())
    exp_policy = AddGaussianNoise(env,
                                  policy,
                                  total_timesteps=10,
                                  max_sigma=1.,
                                  min_sigma=0.)
    exp_policy.get_action(None)
    exp_policy.get_action(None)

    DummyBatch = collections.namedtuple('EpisodeBatch', ['lengths'])
    batch = DummyBatch(np.array([1, 2]))

    # new sigma will be 1 - 0.1 * (1 + 2) = 0.7
    exp_policy.update(batch)
    assert np.isclose(exp_policy._sigma(), 0.7)

    exp_policy.get_action(None)

    batch = DummyBatch(np.array([1, 1, 2]))
    # new sigma will be 0.7 - 0.1 * (1 + 1 + 2) = 0.3
    exp_policy.update(batch)
    assert np.isclose(exp_policy._sigma(), 0.3)