Python GradPBO 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: ifqi.algorithms.pbo.gradpbo

클래스/타입: GradPBO

hotexamples.com에서의 예제들: 4

Python GradPBO - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 ifqi.algorithms.pbo.gradpbo.GradPBO에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

GradPBO(2)

F_bellman_err(1)

F_bellman_operator(1)

F_grad_bellman_berr(1)

F_q(1)

_make_additional_functions(1)

apply_bo(1)

fit(1)

learned_theta_value(1)

예제 #1

파일 보기

파일: simple_run_gradpbo.py 프로젝트: teopir/ifqi

        values = evaluation.evaluate_policy(mdp, agent,
                                            initial_states=initial_states)
        stop = values[0] > -67.
        return stop
    else:
        return False


### PBO ##################################
pbo = GradPBO(bellman_model=rho_regressor,
              q_model=q_regressor,
              steps_ahead=STEPS_AHEAD,
              discrete_actions=discrete_actions,
              gamma=mdp.gamma,
              optimizer="adam",
              state_dim=state_dim,
              action_dim=action_dim,
              incremental=INCREMENTAL,
              update_theta_every=UPDATE_EVERY,
              steps_per_theta_update=None,
              verbose=1,
              norm_value=NORM_VALUE,
              independent=INDEPENDENT)
              # term_condition=lambda v1, v2:
              # increment_base_termination(v1,v2,2,tol=1e-2))
              #term_condition=lambda v1, v2: terminal_evaluation(v1,v2,1e-1))


def tmetric(theta):
    t = pbo.apply_bo(theta[0], n_times=STEPS_AHEAD)
    return q_regressor.get_k(t)

예제 #2

파일 보기

파일: simple_run_gradpbo.py 프로젝트: davide1096/ifqi

                                            agent,
                                            initial_states=initial_states)
        stop = values[0] > -67.
        return stop
    else:
        return False


### PBO ##################################
pbo = GradPBO(bellman_model=rho_regressor,
              q_model=q_regressor,
              steps_ahead=STEPS_AHEAD,
              discrete_actions=discrete_actions,
              gamma=mdp.gamma,
              optimizer="adam",
              state_dim=state_dim,
              action_dim=action_dim,
              incremental=INCREMENTAL,
              update_theta_every=UPDATE_EVERY,
              steps_per_theta_update=None,
              verbose=1,
              norm_value=NORM_VALUE,
              independent=INDEPENDENT)
# term_condition=lambda v1, v2:
# increment_base_termination(v1,v2,2,tol=1e-2))
#term_condition=lambda v1, v2: terminal_evaluation(v1,v2,1e-1))


def tmetric(theta):
    t = pbo.apply_bo(theta[0], n_times=STEPS_AHEAD)
    return q_regressor.get_k(t)

예제 #3

파일 보기

a = np.array([0., 3., 4.]).reshape(-1, 1)
nexts = s + 1
r = np.array([-1., -5., 0.])
absorbing = np.array([0., 0., 0.])
discrete_actions = np.array([1, 2, 3]).reshape(-1, 1)
# to be used for maximum estimate

# =================================================================
INCREMENTAL = False
NORM_VAL = 2
ST = 1
gpbo = GradPBO(bellman_model=lbpo,
               q_model=q_model,
               steps_ahead=ST,
               discrete_actions=discrete_actions,
               gamma=gamma,
               optimizer="adam",
               norm_value=NORM_VAL,
               state_dim=1,
               action_dim=1,
               incremental=INCREMENTAL)
gpbo._make_additional_functions()
assert np.allclose(bellmanop(rho, theta), gpbo.F_bellman_operator(theta)), \
    '{}, {}'.format(bellmanop(rho, theta), gpbo.F_bellman_operator(theta))
assert np.allclose(lqr_reg(s, a, theta), gpbo.F_q(s, a, theta))

berr = gpbo.F_bellman_err(s, a, nexts, r, absorbing, theta, discrete_actions)
tv = multi_step_ebop(s,
                     a,
                     r,
                     nexts,
                     absorbing,

예제 #4

파일 보기

파일: pbo_grad_test.py 프로젝트: teopir/ifqi

q_model = LQRRegressor()  # q-function

s = np.array([1., 2., 3.]).reshape(-1, 1)
a = np.array([0., 3., 4.]).reshape(-1, 1)
nexts = s + 1
r = np.array([-1., -5., 0.])
absorbing = np.array([0., 0., 0.])
discrete_actions = np.array([1, 2, 3]).reshape(-1, 1)
# to be used for maximum estimate

# =================================================================
INCREMENTAL = False
NORM_VAL = 2
ST = 1
gpbo = GradPBO(bellman_model=lbpo, q_model=q_model, steps_ahead=ST,
               discrete_actions=discrete_actions,
               gamma=gamma, optimizer="adam", norm_value=NORM_VAL,
               state_dim=1, action_dim=1, incremental=INCREMENTAL)
gpbo._make_additional_functions()
assert np.allclose(bellmanop(rho, theta), gpbo.F_bellman_operator(theta)), \
    '{}, {}'.format(bellmanop(rho, theta), gpbo.F_bellman_operator(theta))
assert np.allclose(lqr_reg(s, a, theta), gpbo.F_q(s, a, theta))

berr = gpbo.F_bellman_err(s, a, nexts, r, absorbing, theta, discrete_actions)
tv = multi_step_ebop(s, a, r, nexts, absorbing,
                     discrete_actions, gamma, rho, theta,
                     norm_value=NORM_VAL, incremental=INCREMENTAL, steps=ST)[0]
assert np.allclose(berr, tv), '{}, {}'.format(berr, tv)
print(tv)

berr_grad = gpbo.F_grad_bellman_berr(s, a, nexts, r, absorbing,
                                     theta, discrete_actions)