Python KLCoeffMixin примеры использования

Язык программирования: Python

Пространство имен/Пакет: ray.rllib.agents.ppo.ppo_policy

Класс/Тип: KLCoeffMixin

Примеров на hotexamples.com: 5

Python KLCoeffMixin - 5 примеров найдено. Это лучшие примеры Python кода для ray.rllib.agents.ppo.ppo_policy.KLCoeffMixin, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

__init__(5)

Основные методы

__init__ (5)

Пример #1

Показать файл

Файл: centralized_PPO.py Проект: eugenevinitsky/decentralized_bottlenecks

def setup_mixins(policy, obs_space, action_space, config):
    # copied from PPO
    KLCoeffMixin.__init__(policy, config)
    EntropyCoeffSchedule.__init__(policy, config["entropy_coeff"],
                                  config["entropy_coeff_schedule"])
    LearningRateSchedule.__init__(policy, config["lr"], config["lr_schedule"])
    # hack: put in a noop VF so some of the inherited PPO code runs
    policy.value_function = tf.zeros(
        tf.shape(policy.get_placeholder(SampleBatch.CUR_OBS))[0])

Пример #2

Показать файл

def setup_mixins(policy, obs_space, action_space, config):
    ValueNetworkMixin.__init__(policy, obs_space, action_space, config)
    KLCoeffMixin.__init__(policy, config)
    EntropyCoeffSchedule.__init__(policy, config["entropy_coeff"],
                                  config["entropy_coeff_schedule"])
    LearningRateSchedule.__init__(policy, config["lr"], config["lr_schedule"])
    ImitationLearningRateSchedule.__init__(
        policy, config["model"]["custom_options"]["num_imitation_iters"],
        config["model"]["custom_options"]["imitation_weight"], config)

Пример #3

Показать файл

Файл: centralized_imitation_PPO.py Проект: eugenevinitsky/decentralized_bottlenecks

def setup_mixins(policy, obs_space, action_space, config):
    KLCoeffMixin.__init__(policy, config)
    EntropyCoeffSchedule.__init__(policy, config["entropy_coeff"],
                                  config["entropy_coeff_schedule"])
    LearningRateSchedule.__init__(policy, config["lr"], config["lr_schedule"])
    ImitationLearningRateSchedule.__init__(policy, config["model"]["custom_options"]["num_imitation_iters"],
                                           config["model"]["custom_options"]["imitation_weight"], config)
    # hack: put in a noop VF so some of the inherited PPO code runs
    policy.value_function = tf.zeros(
        tf.shape(policy.get_placeholder(SampleBatch.CUR_OBS))[0])

Пример #4

Показать файл

def setup_mixins(policy, obs_space, action_space, config):
    """Copied from PPO"""
    KLCoeffMixin.__init__(policy, config)
    EntropyCoeffSchedule.__init__(policy, config["entropy_coeff"],
                                  config["entropy_coeff_schedule"])
    LearningRateSchedule.__init__(policy, config["lr"], config["lr_schedule"])

Пример #5

Показать файл

Файл: appo_policy.py Проект: zuoxiaolei/ray

def setup_mixins(policy, obs_space, action_space, config):
    LearningRateSchedule.__init__(policy, config["lr"], config["lr_schedule"])
    KLCoeffMixin.__init__(policy, config)
    ValueNetworkMixin.__init__(policy)