Python KLCoeffMixin Exemples

Langage de programmation: Python

Espace de nommage/Pack: ray.rllib.agents.ppo.ppo_policy

Class/Type: KLCoeffMixin

Exemples au hotexamples.com: 5

Python KLCoeffMixin - 5 exemples trouvés. Ce sont les exemples réels les mieux notés de ray.rllib.agents.ppo.ppo_policy.KLCoeffMixin extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

__init__(5)

Méthodes fréquemment utilisées

__init__ (5)

Exemple #1

0

Afficher le fichier

Fichier : centralized_PPO.py Projet : eugenevinitsky/decentralized_bottlenecks

def setup_mixins(policy, obs_space, action_space, config): # copied from PPO KLCoeffMixin.__init__(policy, config) EntropyCoeffSchedule.__init__(policy, config["entropy_coeff"], config["entropy_coeff_schedule"]) LearningRateSchedule.__init__(policy, config["lr"], config["lr_schedule"]) # hack: put in a noop VF so some of the inherited PPO code runs policy.value_function = tf.zeros( tf.shape(policy.get_placeholder(SampleBatch.CUR_OBS))[0])

Exemple #2

0

Afficher le fichier

def setup_mixins(policy, obs_space, action_space, config): ValueNetworkMixin.__init__(policy, obs_space, action_space, config) KLCoeffMixin.__init__(policy, config) EntropyCoeffSchedule.__init__(policy, config["entropy_coeff"], config["entropy_coeff_schedule"]) LearningRateSchedule.__init__(policy, config["lr"], config["lr_schedule"]) ImitationLearningRateSchedule.__init__( policy, config["model"]["custom_options"]["num_imitation_iters"], config["model"]["custom_options"]["imitation_weight"], config)

Exemple #3

0

Afficher le fichier

Fichier : centralized_imitation_PPO.py Projet : eugenevinitsky/decentralized_bottlenecks

def setup_mixins(policy, obs_space, action_space, config): KLCoeffMixin.__init__(policy, config) EntropyCoeffSchedule.__init__(policy, config["entropy_coeff"], config["entropy_coeff_schedule"]) LearningRateSchedule.__init__(policy, config["lr"], config["lr_schedule"]) ImitationLearningRateSchedule.__init__(policy, config["model"]["custom_options"]["num_imitation_iters"], config["model"]["custom_options"]["imitation_weight"], config) # hack: put in a noop VF so some of the inherited PPO code runs policy.value_function = tf.zeros( tf.shape(policy.get_placeholder(SampleBatch.CUR_OBS))[0])

Exemple #4

0

Afficher le fichier

def setup_mixins(policy, obs_space, action_space, config): """Copied from PPO""" KLCoeffMixin.__init__(policy, config) EntropyCoeffSchedule.__init__(policy, config["entropy_coeff"], config["entropy_coeff_schedule"]) LearningRateSchedule.__init__(policy, config["lr"], config["lr_schedule"])

Exemple #5

0

Afficher le fichier

Fichier : appo_policy.py Projet : zuoxiaolei/ray

def setup_mixins(policy, obs_space, action_space, config): LearningRateSchedule.__init__(policy, config["lr"], config["lr_schedule"]) KLCoeffMixin.__init__(policy, config) ValueNetworkMixin.__init__(policy)