Python ExternalSamplingSolver示例

编程语言: Python

命名空间/包名称: open_spiel.python.algorithms.external_sampling_mccfr

方法/功能: ExternalSamplingSolver

hotexamples.com的示例: 9

Python ExternalSamplingSolver - 已找到9个示例。这些是从开源项目中提取的最受好评的open_spiel.python.algorithms.external_sampling_mccfr.ExternalSamplingSolver现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： external_sampling_mccfr_test.py 项目： ngrupen/open_spiel

 def disabled_test_external_sampling_liars_dice_2p_simple(self):
     np.random.seed(SEED)
     game = pyspiel.load_game("liars_dice")
     es_solver = external_sampling_mccfr.ExternalSamplingSolver(
         game, external_sampling_mccfr.AverageType.SIMPLE)
     for _ in range(1):
         es_solver.iteration()
     conv = exploitability.nash_conv(game, es_solver.average_policy())
     print("Liar's dice, conv = {}".format(conv))
     self.assertLess(conv, 2)

示例#2

显示文件

文件： external_sampling_mccfr_test.py 项目： ngrupen/open_spiel

 def test_external_sampling_kuhn_3p_simple(self):
     np.random.seed(SEED)
     game = pyspiel.load_game("kuhn_poker", {"players": 3})
     es_solver = external_sampling_mccfr.ExternalSamplingSolver(
         game, external_sampling_mccfr.AverageType.SIMPLE)
     for _ in range(10):
         es_solver.iteration()
     conv = exploitability.nash_conv(game, es_solver.average_policy())
     print("Kuhn3P, conv = {}".format(conv))
     self.assertLess(conv, 2)

示例#3

显示文件

 def test_ext_mccfr_on_turn_based_game_with_exploitability(self):
   """Check if external sampling MCCFR can be applied."""
   game = pyspiel.load_game(
       "python_dynamic_routing(max_num_time_step=5,time_step_length=1.0)")
   seq_game = pyspiel.convert_to_turn_based(game)
   cfr_solver = external_mccfr.ExternalSamplingSolver(
       seq_game, external_mccfr.AverageType.SIMPLE)
   for _ in range(_NUM_ITERATION_CFR_TEST):
     cfr_solver.iteration()
   exploitability.nash_conv(seq_game, cfr_solver.average_policy())

示例#4

显示文件

文件： external_sampling_mccfr_test.py 项目： ngrupen/open_spiel

 def test_external_sampling_kuhn_2p_full(self):
     np.random.seed(SEED)
     game = pyspiel.load_game("kuhn_poker")
     es_solver = external_sampling_mccfr.ExternalSamplingSolver(
         game, external_sampling_mccfr.AverageType.FULL)
     for _ in range(10):
         es_solver.iteration()
     conv = exploitability.nash_conv(game, es_solver.average_policy())
     print("Kuhn2P, conv = {}".format(conv))
     self.assertLess(conv, 1)

示例#5

显示文件

文件： mccfr_example.py 项目： ngrupen/open_spiel

def main(_):
    game = pyspiel.load_game(FLAGS.game, {"players": FLAGS.players})
    if FLAGS.sampling == "external":
        cfr_solver = external_mccfr.ExternalSamplingSolver(
            game, external_mccfr.AverageType.SIMPLE)
    else:
        cfr_solver = outcome_mccfr.OutcomeSamplingSolver(game)
    for i in range(FLAGS.iterations):
        cfr_solver.iteration()
        if i % FLAGS.print_freq == 0:
            conv = exploitability.nash_conv(game, cfr_solver.average_policy())
            print("Iteration {} exploitability {}".format(i, conv))

示例#6

显示文件

文件： external_sampling_mccfr_test.py 项目： AI-HUB-Deep-Learning-Research/open_spiel-Framework-RL-in-Games

 def test_external_sampling_kuhn_2p_simple(self):
   np.random.seed(SEED)
   game = pyspiel.load_game("kuhn_poker")
   es_solver = external_sampling_mccfr.ExternalSamplingSolver(
       game, external_sampling_mccfr.AverageType.SIMPLE)
   for _ in range(10):
     es_solver.iteration()
   conv = exploitability.nash_conv(
       game,
       policy.tabular_policy_from_callable(game,
                                           es_solver.callable_avg_policy()))
   print("Kuhn2P, conv = {}".format(conv))
   self.assertLess(conv, 1)

示例#7

显示文件

文件： external_sampling_mccfr_test.py 项目： AI-HUB-Deep-Learning-Research/open_spiel-Framework-RL-in-Games

 def test_external_sampling_kuhn_3p_full(self):
   np.random.seed(SEED)
   game = pyspiel.load_game("kuhn_poker",
                            {"players": pyspiel.GameParameter(3)})
   es_solver = external_sampling_mccfr.ExternalSamplingSolver(
       game, external_sampling_mccfr.AverageType.FULL)
   for _ in range(10):
     es_solver.iteration()
   conv = exploitability.nash_conv(
       game,
       policy.tabular_policy_from_callable(game,
                                           es_solver.callable_avg_policy()))
   print("Kuhn3P, conv = {}".format(conv))
   self.assertLess(conv, 2)

示例#8

显示文件

文件： external_sampling_mccfr_test.py 项目： ngrupen/open_spiel

 def test_external_sampling_leduc_2p_simple(self):
     np.random.seed(SEED)
     game = pyspiel.load_game("leduc_poker")
     es_solver = external_sampling_mccfr.ExternalSamplingSolver(
         game, external_sampling_mccfr.AverageType.SIMPLE)
     for _ in range(10):
         es_solver.iteration()
     conv = exploitability.nash_conv(game, es_solver.average_policy())
     print("Leduc2P, conv = {}".format(conv))
     self.assertLess(conv, 5)
     # ensure that to_tabular() works on the returned policy and
     # the tabular policy is equivalent
     tabular_policy = es_solver.average_policy().to_tabular()
     conv2 = exploitability.nash_conv(game, tabular_policy)
     self.assertEqual(conv, conv2)

示例#9

显示文件

def external_sampling_monte_carlo_counterfactual_regret_minimization(
        seq_game, number_of_iterations, compute_metrics=False):
    cfr_solver = external_mccfr.ExternalSamplingSolver(
        seq_game, external_mccfr.AverageType.SIMPLE)
    tick_time = time.time()
    # print("CFRSolver initialized.")
    for _ in range(number_of_iterations):
        cfr_solver.iteration()
    timing = time.time() - tick_time
    # print("Finish.")
    if compute_metrics:
        nash_conv = exploitability.nash_conv(seq_game,
                                             cfr_solver.average_policy())
        return timing, cfr_solver.average_policy(), nash_conv
    return timing, cfr_solver.average_policy()