Python Policy._critic_optimizer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: ray.rllib.policy.policy

클래스/타입: Policy

메소드/함수: _critic_optimizer

hotexamples.com에서의 예제들: 2

Python Policy._critic_optimizer - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 ray.rllib.policy.policy.Policy._critic_optimizer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

__init__(17)

_mean_policy_loss(6)

_mean_vf_loss(6)

_mean_entropy(6)

_mean_kl(5)

_get_is_training_placeholder(5)

_moving_average_sqd_adv_norm(3)

_mean_temporal_caps_loss(2)

_critic_grads_and_vars(2)

_critic_optimizer(2)

_is_ratio(2)

_mean_symmetric_policy_loss(2)

_mean_spatial_caps_loss(2)

_actor_optimizer(2)

_mean_global_caps_loss(2)

_actor_grads_and_vars(2)

_q_loss(1)

Policy(1)

_q_values(1)

_next_q_values(1)

_random_action_generator(1)

_replay_click_q(1)

_score_no_click(1)

_scores(1)

_slate_q_values(1)

_q_clicked(1)

_mean_reward_loss(1)

_next_q_target_slate(1)

_next_q_target_max(1)

_mean_td_error(1)

_mean_actions(1)

_mcts_loss(1)

_loss_wo_vf(1)

_bellman_reward(1)

_alpha_prime_grads_and_vars(1)

_alpha_grads_and_vars(1)

_target(1)

예제 #1

파일 보기

def make_ddpg_optimizers(policy: Policy, config: TrainerConfigDict) -> None:
    # Create separate optimizers for actor & critic losses.
    if policy.config["framework"] in ["tf2", "tfe"]:
        policy._actor_optimizer = tf.keras.optimizers.Adam(
            learning_rate=config["actor_lr"])
        policy._critic_optimizer = tf.keras.optimizers.Adam(
            learning_rate=config["critic_lr"])
    else:
        policy._actor_optimizer = tf1.train.AdamOptimizer(
            learning_rate=config["actor_lr"])
        policy._critic_optimizer = tf1.train.AdamOptimizer(
            learning_rate=config["critic_lr"])
    # TODO: (sven) make this function return both optimizers and
    #  TFPolicy handle optimizers vs loss terms correctly (like torch).
    return None

예제 #2

파일 보기

파일: ddpg_torch_policy.py 프로젝트: vishalbelsare/ray

def make_ddpg_optimizers(policy: Policy,
                         config: AlgorithmConfigDict) -> Tuple[LocalOptimizer]:
    """Create separate optimizers for actor & critic losses."""

    # Set epsilons to match tf.keras.optimizers.Adam's epsilon default.
    policy._actor_optimizer = torch.optim.Adam(
        params=policy.model.policy_variables(),
        lr=config["actor_lr"],
        eps=1e-7)

    policy._critic_optimizer = torch.optim.Adam(
        params=policy.model.q_variables(), lr=config["critic_lr"], eps=1e-7)

    # Return them in the same order as the respective loss terms are returned.
    return policy._actor_optimizer, policy._critic_optimizer