Ejemplos de PresetValidationParameters.reward_test_level en Python

Lenguaje de programación: Python

Namespace/Package Name: rl_coach.base_parameters

Clase / Tipo: PresetValidationParameters

Método / Función: reward_test_level

Ejemplos en hotexamples.com: 2

Python PresetValidationParameters.reward_test_level - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de rl_coach.base_parameters.PresetValidationParameters.reward_test_level extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

test(7)

min_reward_threshold(7)

max_episodes_to_achieve_reward(6)

PresetValidationParameters(5)

trace_test_levels(5)

reward_test_level(2)

num_workers(1)

read_csv_tries(1)

test_using_a_trace_test(1)

trace_max_env_steps(1)

Ejemplo n.º 1

Mostrar archivo

agent_params.network_wrappers['main'].input_embedders_parameters['observation'] = \
    InputEmbedderParameters(scheme=[Dense(200)])
agent_params.network_wrappers['main'].middleware_parameters = LSTMMiddlewareParameters(scheme=MiddlewareScheme.Empty,
                                                                                       number_of_lstm_cells=128)

agent_params.input_filter = InputFilter()
agent_params.input_filter.add_reward_filter('rescale', RewardRescaleFilter(1/20.))
agent_params.input_filter.add_observation_filter('observation', 'normalize', ObservationNormalizationFilter())

###############
# Environment #
###############
env_params = GymVectorEnvironment(level=SingleLevelSelection(mujoco_v2))

########
# Test #
########
preset_validation_params = PresetValidationParameters()
preset_validation_params.test = False
preset_validation_params.min_reward_threshold = 400
preset_validation_params.max_episodes_to_achieve_reward = 1000
preset_validation_params.num_workers = 8
preset_validation_params.reward_test_level = 'inverted_pendulum'
preset_validation_params.trace_test_levels = ['inverted_pendulum', 'hopper']

graph_manager = BasicRLGraphManager(agent_params=agent_params, env_params=env_params,
                                    schedule_params=schedule_params, vis_params=VisualizationParameters(),
                                    preset_validation_params=preset_validation_params)

Ejemplo n.º 2

Mostrar archivo

Archivo: Mujoco_TD3.py Proyecto: bigdatasciencegroup/intel-ailab-reinforcement-learning-coach

agent_params.network_wrappers['critic'].input_embedders_parameters[
    'observation'].scheme = EmbedderScheme.Empty
agent_params.network_wrappers['critic'].input_embedders_parameters[
    'action'].scheme = EmbedderScheme.Empty
agent_params.network_wrappers['critic'].middleware_parameters.scheme = [
    Dense(400), Dense(300)
]

###############
# Environment #
###############
env_params = GymVectorEnvironment(level=SingleLevelSelection(mujoco_v2))

########
# Test #
########
preset_validation_params = PresetValidationParameters()
preset_validation_params.test = True
preset_validation_params.min_reward_threshold = 500
preset_validation_params.max_episodes_to_achieve_reward = 1100
preset_validation_params.reward_test_level = 'hopper'
preset_validation_params.trace_test_levels = ['inverted_pendulum', 'hopper']

graph_manager = BasicRLGraphManager(
    agent_params=agent_params,
    env_params=env_params,
    schedule_params=schedule_params,
    vis_params=VisualizationParameters(),
    preset_validation_params=preset_validation_params)