Python GaussianMLPPolicy.get_param_values 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: garage.policies

클래스/타입: GaussianMLPPolicy

메소드/함수: get_param_values

hotexamples.com에서의 예제들: 2

Python GaussianMLPPolicy.get_param_values - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 garage.policies.GaussianMLPPolicy.get_param_values에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

GaussianMLPPolicy(20)

get_param_values(2)

dist_info_sym(1)

get_action(1)

get_params(1)

예제 #1

파일 보기

파일: test_trpo.py 프로젝트: gntoni/garage

def test_trpo_deterministic_nan():
    env = TheanoEnv(DummyEnv())
    policy = GaussianMLPPolicy(env_spec=env.spec, hidden_sizes=(1, ))
    policy._l_log_std.param.set_value([np.float32(np.log(1e-8))])
    baseline = ZeroBaseline(env_spec=env.spec)
    algo = TRPO(env=env,
                policy=policy,
                baseline=baseline,
                n_itr=10,
                batch_size=1000,
                max_path_length=100,
                step_size=0.01)
    algo.train()
    assert not np.isnan(np.sum(policy.get_param_values()))

예제 #2

파일 보기

파일: test_trpo.py 프로젝트: gntoni/garage

def test_trpo_relu_nan():
    env = TheanoEnv(DummyEnv())
    policy = GaussianMLPPolicy(env_spec=env.spec,
                               hidden_nonlinearity=naive_relu,
                               hidden_sizes=(1, ))
    baseline = ZeroBaseline(env_spec=env.spec)
    algo = TRPO(env=env,
                policy=policy,
                baseline=baseline,
                n_itr=1,
                batch_size=1000,
                max_path_length=100,
                step_size=0.001)
    algo.train()
    assert not np.isnan(np.sum(policy.get_param_values()))