Python Policy._moving_average_sqd_adv_norm Exemples

Langage de programmation: Python

Espace de nommage/Pack: ray.rllib.policy.policy

Class/Type: Policy

Méthode/Fonction: _moving_average_sqd_adv_norm

Exemples au hotexamples.com: 3

Python Policy._moving_average_sqd_adv_norm - 3 exemples trouvés. Ce sont les exemples réels les mieux notés de ray.rllib.policy.policy.Policy._moving_average_sqd_adv_norm extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

__init__(17)

_mean_policy_loss(6)

_mean_vf_loss(6)

_mean_entropy(6)

_mean_kl(5)

_get_is_training_placeholder(5)

_moving_average_sqd_adv_norm(3)

_mean_temporal_caps_loss(2)

_critic_grads_and_vars(2)

_critic_optimizer(2)

_is_ratio(2)

_mean_symmetric_policy_loss(2)

_mean_spatial_caps_loss(2)

_actor_optimizer(2)

_mean_global_caps_loss(2)

_actor_grads_and_vars(2)

_q_loss(1)

Policy(1)

_q_values(1)

_next_q_values(1)

_random_action_generator(1)

_replay_click_q(1)

_score_no_click(1)

_scores(1)

_slate_q_values(1)

_q_clicked(1)

_mean_reward_loss(1)

_next_q_target_slate(1)

_next_q_target_max(1)

_mean_td_error(1)

_mean_actions(1)

_mcts_loss(1)

_loss_wo_vf(1)

_bellman_reward(1)

_alpha_prime_grads_and_vars(1)

_alpha_grads_and_vars(1)

_target(1)

Méthodes fréquemment utilisées

__init__ (17)

_mean_policy_loss (6)

_mean_vf_loss (6)

_mean_entropy (6)

_mean_kl (5)

_get_is_training_placeholder (5)

_moving_average_sqd_adv_norm (3)

_mean_temporal_caps_loss (2)

_critic_grads_and_vars (2)

_critic_optimizer (2)

Méthodes fréquemment utilisées

_is_ratio (2)

_mean_symmetric_policy_loss (2)

_mean_spatial_caps_loss (2)

_actor_optimizer (2)

_mean_global_caps_loss (2)

_actor_grads_and_vars (2)

_q_loss (1)

Policy (1)

_q_values (1)

_next_q_values (1)

_random_action_generator (1)

_replay_click_q (1)

_score_no_click (1)

_scores (1)

_slate_q_values (1)

_q_clicked (1)

_mean_reward_loss (1)

_next_q_target_slate (1)

_next_q_target_max (1)

_mean_td_error (1)

Méthodes fréquemment utilisées

_random_action_generator (1)

_replay_click_q (1)

_score_no_click (1)

_scores (1)

_slate_q_values (1)

_q_clicked (1)

_mean_reward_loss (1)

_next_q_target_slate (1)

_next_q_target_max (1)

_mean_td_error (1)

_mean_actions (1)

_mcts_loss (1)

_loss_wo_vf (1)

_bellman_reward (1)

_alpha_prime_grads_and_vars (1)

_alpha_grads_and_vars (1)

_target (1)

Méthodes fréquemment utilisées

_mean_actions (1)

_mcts_loss (1)

_loss_wo_vf (1)

_bellman_reward (1)

_alpha_prime_grads_and_vars (1)

_alpha_grads_and_vars (1)

_target (1)

Exemple #1

0

Afficher le fichier

Fichier : marwil_tf_policy.py Projet : weileze/ray

def setup_mixins(policy: Policy, obs_space: gym.spaces.Space, action_space: gym.spaces.Space, config: TrainerConfigDict) -> None: ValueNetworkMixin.__init__(policy, obs_space, action_space, config) # Set up a tf-var for the moving avg (do this here to make it work with # eager mode); "c^2" in the paper. policy._moving_average_sqd_adv_norm = get_variable( 100.0, framework="tf", tf_name="moving_average_of_advantage_norm", trainable=False)

Exemple #2

0

Afficher le fichier

def setup_mixins(policy: Policy, obs_space: gym.spaces.Space, action_space: gym.spaces.Space, config: TrainerConfigDict) -> None: # Setup Value branch of our NN. ValueNetworkMixin.__init__(policy, obs_space, action_space, config) # Not needed for pure BC. if policy.config["beta"] != 0.0: # Set up a torch-var for the squared moving avg. advantage norm. policy._moving_average_sqd_adv_norm = torch.tensor( [policy.config["moving_average_sqd_adv_norm_start"]], dtype=torch.float32, requires_grad=False).to(policy.device)

Exemple #3

0

Afficher le fichier

Fichier : marwil_tf_policy.py Projet : yiranwang52/ray

def setup_mixins(policy: Policy, obs_space: gym.spaces.Space, action_space: gym.spaces.Space, config: TrainerConfigDict) -> None: # Setup Value branch of our NN. ValueNetworkMixin.__init__(policy, obs_space, action_space, config) # Not needed for pure BC. if policy.config["beta"] != 0.0: # Set up a tf-var for the moving avg (do this here to make it work # with eager mode); "c^2" in the paper. policy._moving_average_sqd_adv_norm = get_variable( policy.config["moving_average_sqd_adv_norm_start"], framework="tf", tf_name="moving_average_of_advantage_norm", trainable=False)