Python DQNTrainer.with_updates 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: ray.rllib.agents.dqn

클래스/타입: DQNTrainer

메소드/함수: with_updates

hotexamples.com에서의 예제들: 2

Python DQNTrainer.with_updates - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 ray.rllib.agents.dqn.DQNTrainer.with_updates에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DQNTrainer(30)

train(28)

restore(12)

save(12)

get_policy(4)

compute_action(3)

get_weights(2)

set_weights(2)

with_updates(2)

_evaluate(1)

_train(1)

eval(1)

restore_from_object(1)

save_to_object(1)

예제 #1

파일 보기

파일: legal_action.py 프로젝트: carlbalmer/HanabiExperiments

    policy.q_loss.stats.update({"q_loss": policy.q_loss.loss})

    loss = policy.q_model.extra_loss(policy.q_loss.loss, train_batch,
                                     policy.q_loss.stats)

    return loss


def _compute_q_values(policy, model, obs, obs_space, action_space):
    model({
        "obs": obs,
        "is_training": policy._get_is_training_placeholder(),
    }, [], None)

    q_out = model.get_q_out()

    return q_out["value"], q_out["logits"], q_out["dist"]


LegalActionDQNPolicy = DQNTFPolicy.with_updates(
    name="LegalActionDQNPolicy",
    action_sampler_fn=build_q_networks,
    loss_fn=build_q_losses)

LegalActionDQNTrainer = DQNTrainer.with_updates(
    name="LegalActionDQN", default_policy=LegalActionDQNPolicy)

LegalActionApexTrainer = LegalActionDQNTrainer.with_updates(
    name="LegalActionAPEX",
    default_config=APEX_DEFAULT_CONFIG,
    **APEX_TRAINER_PROPERTIES)

예제 #2

파일 보기

            tf.shape(restored["previous_round_legal_actions"])[0] *
            restored["previous_round_legal_actions"].shape[1],
            restored["previous_round_legal_actions"].shape[2]
        ])
    target_q_model.forward(
        {
            "obs": previous_round_obs,
            "is_training": policy._get_is_training_placeholder()
        }, [], None)
    q_out = target_q_model.get_q_out()
    previous_round = tf.one_hot(tf.argmax(q_out["value"], 1),
                                policy.action_space.n)
    previous_round = tf.reshape(previous_round, [
        tf.shape(restored["previous_round"])[0],
        restored["previous_round"].shape[1], action_space.n
    ])
    return previous_round


TargetPolicyInferenceDQNPolicy = LegalActionDQNPolicy.with_updates(
    name="TargetPolicyInferenceDQNPolicy", loss_fn=build_q_losses)

TargetPolicyInferenceDQNTrainer = DQNTrainer.with_updates(
    name="TargetPolicyInferenceDQN",
    default_policy=TargetPolicyInferenceDQNPolicy)

TargetPolicyInferenceApexTrainer = TargetPolicyInferenceDQNTrainer.with_updates(
    name="TargetPolicyInferenceAPEX",
    default_config=APEX_DEFAULT_CONFIG,
    **APEX_TRAINER_PROPERTIES)