Python benchmark_agents_on_tasks 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: regym.evaluation

메소드/함수: benchmark_agents_on_tasks

hotexamples.com에서의 예제들: 6

Python benchmark_agents_on_tasks - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 regym.evaluation.benchmark_agents_on_tasks에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: benchmark_agents_on_tasks_test.py 프로젝트: Mark-F10/Regym

def test_all_tasks_must_be_single_agent_or_multiagent(RPSTask, pendulum_task,
                                                      ppo_config_dict):
    agent = build_PPO_Agent(RPSTask, ppo_config_dict, 'Test-PPO')
    with pytest.raises(ValueError) as _:
        _ = benchmark_agents_on_tasks(tasks=[RPSTask, pendulum_task],
                                      agents=[agent],
                                      num_episodes=1)

예제 #2

파일 보기

파일: benchmark_agents_on_tasks_test.py 프로젝트: Mark-F10/Regym

def test_if_populate_all_agents_is_set_a_single_agent_must_be_provided(
        RPSTask, ppo_config_dict):
    agent = build_PPO_Agent(RPSTask, ppo_config_dict, 'Test-PPO')
    with pytest.raises(ValueError) as _:
        _ = benchmark_agents_on_tasks(tasks=[RPSTask],
                                      agents=[agent, agent],
                                      num_episodes=1,
                                      populate_all_agents=True)

예제 #3

파일 보기

파일: benchmark_agents_on_tasks_test.py 프로젝트: Mark-F10/Regym

def test_single_agent_can_populate_all_agents(RPSTask):
    expected_winrates = [0.5]

    actual_winrates = benchmark_agents_on_tasks(tasks=[RPSTask],
                                                agents=[rockAgent],
                                                num_episodes=200,
                                                populate_all_agents=True)
    np.testing.assert_allclose(expected_winrates, actual_winrates, atol=0.1)

예제 #4

파일 보기

def generate_evaluation_matrix(cool_game_params, logger):
    # 0: SawBot 1: TorchBot 2: NailBot
    benchmarking_episodes = 1
    mcts_budget = 1

    saw_vs_torch_task = generate_task('CoolGame-v0',
                                      EnvType.MULTIAGENT_SIMULTANEOUS_ACTION,
                                      botA_type=0,
                                      botB_type=1,
                                      **cool_game_params)
    saw_vs_nail_task = generate_task('CoolGame-v0',
                                     EnvType.MULTIAGENT_SIMULTANEOUS_ACTION,
                                     botA_type=0,
                                     botB_type=2,
                                     **cool_game_params)
    torch_vs_nail_task = generate_task('CoolGame-v0',
                                       EnvType.MULTIAGENT_SIMULTANEOUS_ACTION,
                                       botA_type=1,
                                       botB_type=2,
                                       **cool_game_params)

    mcts_config = {'budget': mcts_budget}
    mcts_agent = build_MCTS_Agent(saw_vs_torch_task,
                                  mcts_config,
                                  agent_name='MCTS agent')

    saw_winrates = benchmark_agents_on_tasks(
        tasks=[saw_vs_torch_task, saw_vs_nail_task],
        agents=[mcts_agent],
        populate_all_agents=True,
        num_episodes=benchmarking_episodes)
    nail_winrate = benchmark_agents_on_tasks(
        tasks=[torch_vs_nail_task],
        agents=[mcts_agent],
        populate_all_agents=True,
        num_episodes=benchmarking_episodes)

    bench_msg = f'episodes={benchmarking_episodes} MCTS_budget={mcts_budget}'
    winrates_msg = f'winrates=saw:{saw_winrates} nail:{nail_winrate}'
    logger.info(bench_msg)
    logger.info(winrates_msg)
    logger.info(f'params={cool_game_params}')
    return np.array([[0., saw_winrates[0], saw_winrates[1]],
                     [-saw_winrates[0], 0., nail_winrate[0]],
                     [-saw_winrates[0], -nail_winrate[0], 0.]])

예제 #5

파일 보기

파일: benchmark_agents_on_tasks_test.py 프로젝트: Mark-F10/Regym

def test_can_compute_winrate_for_player1_multiagent_task(RPSTask):
    expected_winrates = [0, 1]

    vs_paper = deepcopy(RPSTask)
    vs_scissors = deepcopy(RPSTask)

    # Ugly, would be awesome to have it in a one line
    vs_paper.extend_task(agents={1: paperAgent})
    vs_scissors.extend_task(agents={1: scissorsAgent})

    actual_winrates = benchmark_agents_on_tasks(tasks=[vs_paper, vs_scissors],
                                                agents=[rockAgent],
                                                num_episodes=10)
    np.testing.assert_array_equal(expected_winrates, actual_winrates)

예제 #6

파일 보기

파일: benchmark_agents_on_tasks_test.py 프로젝트: Mark-F10/Regym

def test_can_compute_cumulative_reward_for_agent_single_agent_task(
        RPSTask2Repetitions):
    vs_paper = deepcopy(RPSTask2Repetitions)
    vs_scissors = deepcopy(RPSTask2Repetitions)
    vs_paper.extend_task(agents={1: paperAgent})
    vs_scissors.extend_task(agents={1: scissorsAgent})

    expected_cumulative_rewards = [-2., 2]

    actual_winrates, actual_cumulative_rewards = benchmark_agents_on_tasks(
        tasks=[vs_paper, vs_scissors],
        agents=[rockAgent],
        keep_cumulative_rewards=True,
        num_episodes=10)
    np.testing.assert_array_equal(expected_cumulative_rewards,
                                  actual_cumulative_rewards)