Exemplos de ModelUtils.create_value_heads em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: mlagents.trainers.tf.models

Classe / Tipo: ModelUtils

Método / Função: create_value_heads

Exemplos em hotexamples.com: 2

ModelUtils.create_value_heads em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de mlagents.trainers.tf.models.ModelUtils.create_value_heads em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

create_recurrent_encoder(6)

create_observation_streams(5)

create_input_placeholders(5)

create_schedule(3)

create_vector_observation_encoder(3)

normalize_vector_obs(3)

scaled_init(3)

break_into_branches(2)

create_discrete_action_masking_layer(2)

create_normalizer(2)

create_value_heads(2)

create_visual_observation_encoder(2)

_check_resolution_for_encoder(1)

create_global_steps(1)

create_visual_input(1)

get_encoder_for_type(1)

Métodos Frequentes

create_recurrent_encoder (6)

create_observation_streams (5)

create_input_placeholders (5)

create_schedule (3)

create_vector_observation_encoder (3)

normalize_vector_obs (3)

scaled_init (3)

break_into_branches (2)

create_discrete_action_masking_layer (2)

create_normalizer (2)

Métodos Frequentes

create_value_heads (2)

create_visual_observation_encoder (2)

_check_resolution_for_encoder (1)

create_global_steps (1)

create_visual_input (1)

get_encoder_for_type (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: optimizer.py Projeto: junpilan/ml-agents

def _create_cc_critic( self, h_size: int, num_layers: int, vis_encode_type: EncoderType ) -> None: """ Creates Continuous control critic (value) network. :param h_size: Size of hidden linear layers. :param num_layers: Number of hidden linear layers. :param vis_encode_type: The type of visual encoder to use. """ hidden_stream = ModelUtils.create_observation_streams( self.policy.visual_in, self.policy.processed_vector_in, 1, h_size, num_layers, vis_encode_type, )[0] if self.policy.use_recurrent: hidden_value, memory_value_out = ModelUtils.create_recurrent_encoder( hidden_stream, self.memory_in, self.policy.sequence_length_ph, name="lstm_value", ) self.memory_out = memory_value_out else: hidden_value = hidden_stream self.value_heads, self.value = ModelUtils.create_value_heads( self.stream_names, hidden_value ) self.all_old_log_probs = tf.placeholder( shape=[None, sum(self.policy.act_size)], dtype=tf.float32, name="old_probabilities", ) self.old_log_probs = tf.reduce_sum( (tf.identity(self.all_old_log_probs)), axis=1, keepdims=True )

Exemplo n.º 2

0

Exibir arquivo

def _create_dc_critic(self, h_size: int, num_layers: int, vis_encode_type: EncoderType) -> None: """ Creates Discrete control critic (value) network. :param h_size: Size of hidden linear layers. :param num_layers: Number of hidden linear layers. :param vis_encode_type: The type of visual encoder to use. """ hidden_stream = ModelUtils.create_observation_streams( self.policy.visual_in, self.policy.processed_vector_in, 1, h_size, num_layers, vis_encode_type, )[0] if self.policy.use_recurrent: hidden_value, memory_value_out = ModelUtils.create_recurrent_encoder( hidden_stream, self.memory_in, self.policy.sequence_length_ph, name="lstm_value", ) self.memory_out = memory_value_out else: hidden_value = hidden_stream self.value_heads, self.value = ModelUtils.create_value_heads( self.stream_names, hidden_value) self.all_old_log_probs = tf.placeholder( shape=[None, sum(self.policy.act_size)], dtype=tf.float32, name="old_probabilities", ) # Break old log log_probs into separate branches old_log_prob_branches = ModelUtils.break_into_branches( self.all_old_log_probs, self.policy.act_size) _, _, old_normalized_logits = ModelUtils.create_discrete_action_masking_layer( old_log_prob_branches, self.policy.action_masks, self.policy.act_size) action_idx = [0] + list(np.cumsum(self.policy.act_size)) self.old_log_probs = tf.reduce_sum( (tf.stack( [ -tf.nn.softmax_cross_entropy_with_logits_v2( labels=self.policy. selected_actions[:, action_idx[i]:action_idx[i + 1]], logits=old_normalized_logits[:, action_idx[i]: action_idx[i + 1]], ) for i in range(len(self.policy.act_size)) ], axis=1, )), axis=1, keepdims=True, )