Ejemplos de A2CTrainer.with_updates en Python

Lenguaje de programación: Python

Namespace/Package Name: ray.rllib.agents.a3c

Clase / Tipo: A2CTrainer

Método / Función: with_updates

Ejemplos en hotexamples.com: 3

Python A2CTrainer.with_updates - 3 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de ray.rllib.agents.a3c.A2CTrainer.with_updates extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

A2CTrainer(28)

with_updates(3)

merge_trainer_configs(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: tuned_a2c.py Proyecto: kingsleykuan/wher

                           gamma=config['cyclic_lr_gamma'])


# Update stats function to include the current learning rate
def stats(policy, train_batch):
    return {
        'policy_entropy': policy.entropy.item(),
        'policy_loss': policy.pi_err.item(),
        'vf_loss': policy.value_err.item(),
        'cur_lr': policy._optimizers[0].param_groups[0]['lr'],
    }


def get_policy_class(config):
    return TunedA2CPolicy


TunedA2CPolicy = A3CTorchPolicy.with_updates(
    name='TunedA2CPolicy',
    get_default_config=lambda: TUNED_A2C_CONFIG,
    loss_fn=actor_critic_loss,
    stats_fn=stats,
    postprocess_fn=add_advantages,
    mixins=[ValueNetworkMixin],
    optimizer_fn=torch_optimizer)

TunedA2CTrainer = A2CTrainer.with_updates(name='TunedA2C',
                                          default_config=TUNED_A2C_CONFIG,
                                          default_policy=TunedA2CPolicy,
                                          get_policy_class=get_policy_class)

Ejemplo n.º 2

Mostrar archivo

Archivo: fun_policy.py Proyecto: kingsleykuan/wher

    return {
        'policy_entropy': policy.entropy.item(),
        'policy_loss': policy.pi_err.item(),
        'manager_loss': policy.manager_loss.item(),
        'manager_vf_loss': policy.manager_value_err.item(),
        'worker_vf_loss': policy.worker_value_err.item(),
        'cur_lr': policy._optimizers[0].param_groups[0]['lr'],
        'fun_intrinsic_reward':
        train_batch['fun_intrinsic_reward'].mean().item()
    }


def get_policy_class(config):
    return FuNPolicy


FuNPolicy = A3CTorchPolicy.with_updates(
    name='FuNPolicy',
    get_default_config=lambda: FUN_CONFIG,
    extra_action_out_fn=model_extra_out,
    postprocess_fn=postprocesses_trajectories,
    loss_fn=actor_critic_loss,
    stats_fn=stats,
    mixins=[ValueNetworkMixin],
    optimizer_fn=torch_optimizer)

FuNTrainer = A2CTrainer.with_updates(name='FuN',
                                     default_config=FUN_CONFIG,
                                     default_policy=FuNPolicy,
                                     get_policy_class=get_policy_class)

Ejemplo n.º 3

Mostrar archivo

        'manager_loss': policy.manager_loss.item(),
        'manager_vf_loss': policy.manager_value_err.item(),
        'worker_vf_loss': policy.worker_value_err.item(),
        'cur_lr': policy._optimizers[0].param_groups[0]['lr'],
        'fun_intrinsic_reward':
        train_batch['fun_intrinsic_reward'].mean().item(),
        'icm_loss': policy.icm_loss.item(),
        'exploration_rewards':
        train_batch['exploration_rewards'].mean().item(),
    }


def get_policy_class(config):
    return WherPolicy


WherPolicy = A3CTorchPolicy.with_updates(
    name='WherPolicy',
    get_default_config=lambda: WHER_CONFIG,
    extra_action_out_fn=model_extra_out,
    postprocess_fn=postprocesses_trajectories,
    loss_fn=actor_critic_loss,
    stats_fn=stats,
    mixins=[ValueNetworkMixin],
    optimizer_fn=torch_optimizer)

WherTrainer = A2CTrainer.with_updates(name='Wher',
                                      default_config=WHER_CONFIG,
                                      default_policy=WherPolicy,
                                      get_policy_class=get_policy_class)