Exemplos de ClippedPPOAgentParameters.pre_network_filter em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: rl_coach.agents.clipped_ppo_agent

Classe / Tipo: ClippedPPOAgentParameters

Método / Função: pre_network_filter

Exemplos em hotexamples.com: 2

ClippedPPOAgentParameters.pre_network_filter em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de rl_coach.agents.clipped_ppo_agent.ClippedPPOAgentParameters.pre_network_filter em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

ClippedPPOAgentParameters(6)

exploration(6)

input_filter(2)

pre_network_filter(2)

Métodos Frequentes

ClippedPPOAgentParameters (6)

exploration (6)

input_filter (2)

pre_network_filter (2)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: CartPole_ClippedPPO.py Projeto: bigdatasciencegroup/intel-ailab-reinforcement-learning-coach

agent_params.network_wrappers['main'].optimizer_epsilon = 1e-5 agent_params.network_wrappers['main'].adam_optimizer_beta2 = 0.999 agent_params.algorithm.clip_likelihood_ratio_using_epsilon = 0.2 agent_params.algorithm.clipping_decay_schedule = LinearSchedule(1.0, 0, 1000000) agent_params.algorithm.beta_entropy = 0 agent_params.algorithm.gae_lambda = 0.95 agent_params.algorithm.discount = 0.99 agent_params.algorithm.optimization_epochs = 10 agent_params.algorithm.estimate_state_value_using_gae = True agent_params.algorithm.num_steps_between_copying_online_weights_to_target = EnvironmentSteps(2048) # Distributed Coach synchronization type. agent_params.algorithm.distributed_coach_synchronization_type = DistributedCoachSynchronizationType.SYNC agent_params.pre_network_filter = InputFilter() agent_params.pre_network_filter.add_observation_filter('observation', 'normalize_observation', ObservationNormalizationFilter(name='normalize_observation')) ############### # Environment # ############### env_params = GymVectorEnvironment(level='CartPole-v0') env_params.custom_reward_threshold = 200 # Set the target success env_params.target_success_rate = 1.0 ######## # Test # ########

Exemplo n.º 2

0

Exibir arquivo

Arquivo: Mujoco_ClippedPPO.py Projeto: mdavala/coach

agent_params.network_wrappers['main'].batch_size = 64 agent_params.network_wrappers['main'].optimizer_epsilon = 1e-5 agent_params.network_wrappers['main'].adam_optimizer_beta2 = 0.999 agent_params.algorithm.clip_likelihood_ratio_using_epsilon = 0.2 agent_params.algorithm.clipping_decay_schedule = LinearSchedule( 1.0, 0, 1000000) agent_params.algorithm.beta_entropy = 0 agent_params.algorithm.gae_lambda = 0.95 agent_params.algorithm.discount = 0.99 agent_params.algorithm.optimization_epochs = 10 agent_params.algorithm.estimate_state_value_using_gae = True agent_params.input_filter = MujocoInputFilter() agent_params.exploration = AdditiveNoiseParameters() agent_params.pre_network_filter = MujocoInputFilter() agent_params.pre_network_filter.add_observation_filter( 'observation', 'normalize_observation', ObservationNormalizationFilter(name='normalize_observation')) ############### # Environment # ############### env_params = Mujoco() env_params.level = SingleLevelSelection(mujoco_v2) vis_params = VisualizationParameters() vis_params.video_dump_methods = [ SelectedPhaseOnlyDumpMethod(RunPhase.TEST), MaxDumpMethod() ]