Python default_reward_processor Exemples

Langage de programmation: Python

Espace de nommage/Pack: mlagents.trainers.tests.check_env_trains

Méthode/Fonction: default_reward_processor

Exemples au hotexamples.com: 2

Python default_reward_processor - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de mlagents.trainers.tests.check_env_trains.default_reward_processor extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Exemple #1

0

Afficher le fichier

Fichier : test_simple_rl.py Projet : vogulcan/ml-agents

def test_simple_asymm_ghost_fails(action_sizes): # Make opponent for asymmetric case brain_name_opp = BRAIN_NAME + "Opp" env = SimpleEnvironment( [BRAIN_NAME + "?team=0", brain_name_opp + "?team=1"], action_sizes=action_sizes) # This config should fail because the team that us not learning when both have reached # max step should be executing the initial, untrained poliy. self_play_settings = SelfPlaySettings( play_against_latest_model_ratio=0.0, save_steps=5000, swap_steps=5000, team_change=2000, ) config = attr.evolve(PPO_TORCH_CONFIG, self_play=self_play_settings, max_steps=3000) check_environment_trains(env, { BRAIN_NAME: config, brain_name_opp: config }, success_threshold=None) processed_rewards = [ default_reward_processor(rewards) for rewards in env.final_rewards.values() ] success_threshold = 0.9 assert any(reward > success_threshold for reward in processed_rewards) and any( reward < success_threshold for reward in processed_rewards)

Exemple #2

0

Afficher le fichier

Fichier : test_simple_rl.py Projet : zereyak13/ml-agents

def test_simple_ghost_fails(action_sizes): env = SimpleEnvironment( [BRAIN_NAME + "?team=0", BRAIN_NAME + "?team=1"], action_sizes=action_sizes ) # This config should fail because the ghosted policy is never swapped with a competent policy. # Swap occurs after max step is reached. self_play_settings = SelfPlaySettings( play_against_latest_model_ratio=1.0, save_steps=2000, swap_steps=4000 ) config = attr.evolve(PPO_TORCH_CONFIG, self_play=self_play_settings, max_steps=2500) check_environment_trains(env, {BRAIN_NAME: config}, success_threshold=None) processed_rewards = [ default_reward_processor(rewards) for rewards in env.final_rewards.values() ] success_threshold = 0.9 assert any(reward > success_threshold for reward in processed_rewards) and any( reward < success_threshold for reward in processed_rewards )