Python EpsilonGreedyPolicy Beispiele

Programmiersprache: Python

Namespace / Paketname: tf_agents.policies.py_epsilon_greedy_policy

Methode / Funktion: EpsilonGreedyPolicy

Beispiele auf hotexamples.com: 9

Python EpsilonGreedyPolicy - 9 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die tf_agents.policies.py_epsilon_greedy_policy.EpsilonGreedyPolicy, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Beispiel #1

Datei anzeigen

Datei: py_epsilon_greedy_policy_test.py Projekt: GitHub30/agents

 def testCtorValueErrorMissingEpsilonEndValue(self):
     with self.assertRaises(ValueError):
         py_epsilon_greedy_policy.EpsilonGreedyPolicy(
             self.greedy_policy,
             0.99,
             random_policy=self.random_policy,
             epsilon_decay_end_count=100)

Beispiel #2

Datei anzeigen

Datei: py_epsilon_greedy_policy_test.py Projekt: yuhonghong7035/agents

  def testActionSelectionWithEpsilonDecay(self):
    policy = py_epsilon_greedy_policy.EpsilonGreedyPolicy(
        self.greedy_policy, 0.9, random_policy=self.random_policy,
        epsilon_decay_end_count=10,
        epsilon_decay_end_value=0.4)
    time_step = mock.MagicMock()
    # Replace the random generator with fixed behaviour
    random = mock.MagicMock()
    policy._rng = random

    # 0.8 < 0.9 and 0.8 < 0.85, so random policy should be used.
    policy._rng.rand.return_value = 0.8
    for _ in range(2):
      policy.action(time_step)
      self.random_policy.action.assert_called_with(time_step)
    self.assertEqual(2, self.random_policy.action.call_count)
    self.assertEqual(0, self.greedy_policy.action.call_count)

    # epislon will change from [0.8 to 0.4], and greedy policy should be used
    for _ in range(8):
      policy.action(time_step)
      self.greedy_policy.action.assert_called_with(time_step, policy_state=())
    self.assertEqual(2, self.random_policy.action.call_count)
    self.assertEqual(8, self.greedy_policy.action.call_count)

    # 0.399 < 0.4, random policy should be used.
    policy._rng.rand.return_value = 0.399
    self.random_policy.reset_mock()
    for _ in range(5):
      policy.action(time_step)
      self.random_policy.action.assert_called_with(time_step)
    self.assertEqual(5, self.random_policy.action.call_count)
    # greedy policy should not be called any more
    self.assertEqual(8, self.greedy_policy.action.call_count)

Beispiel #3

Datei anzeigen

 def testZeroState(self):
     policy = py_epsilon_greedy_policy.EpsilonGreedyPolicy(
         self.greedy_policy, 0.5, random_policy=self.random_policy)
     policy.get_initial_state()
     self.greedy_policy.get_initial_state.assert_called_once_with(
         batch_size=None)
     self.random_policy.get_initial_state.assert_called_once_with(
         batch_size=None)

Beispiel #4

Datei anzeigen

Datei: py_epsilon_greedy_policy_test.py Projekt: GitHub30/agents

 def testActionAlwaysRandom(self):
     policy = py_epsilon_greedy_policy.EpsilonGreedyPolicy(
         self.greedy_policy, 1, random_policy=self.random_policy)
     time_step = mock.MagicMock()
     for _ in range(5):
         policy.action(time_step)
     self.random_policy.action.assert_called_with(time_step)
     self.assertEqual(5, self.random_policy.action.call_count)
     self.assertEqual(0, self.greedy_policy.action.call_count)

Beispiel #5

Datei anzeigen

Datei: py_epsilon_greedy_policy_test.py Projekt: yuhonghong7035/agents

  def testActionSelection(self):
    policy = py_epsilon_greedy_policy.EpsilonGreedyPolicy(
        self.greedy_policy, 0.9, random_policy=self.random_policy)
    time_step = mock.MagicMock()
    # Replace the random generator with fixed behaviour
    random = mock.MagicMock()
    policy._rng = random

    # 0.8 < 0.9, so random policy should be used.
    policy._rng.rand.return_value = 0.8
    policy.action(time_step)
    self.random_policy.action.assert_called_with(time_step)
    self.assertEqual(1, self.random_policy.action.call_count)
    self.assertEqual(0, self.greedy_policy.action.call_count)

    # 0.91 > 0.9, so greedy policy should be used.
    policy._rng.rand.return_value = 0.91
    policy.action(time_step)
    self.greedy_policy.action.assert_called_with(time_step, policy_state=())
    self.assertEqual(1, self.random_policy.action.call_count)
    self.assertEqual(1, self.greedy_policy.action.call_count)

Beispiel #6

Datei anzeigen

Datei: py_epsilon_greedy_policy_test.py Projekt: GitHub30/agents

 def testCtorValueErrorEpsilonMorThanOne(self):
     with self.assertRaises(ValueError):
         py_epsilon_greedy_policy.EpsilonGreedyPolicy(
             self.greedy_policy, 1.00001, random_policy=self.random_policy)

Beispiel #7

Datei anzeigen

Datei: py_epsilon_greedy_policy_test.py Projekt: GitHub30/agents

 def testCtorValueErrorNegativeEpsilon(self):
     with self.assertRaises(ValueError):
         py_epsilon_greedy_policy.EpsilonGreedyPolicy(
             self.greedy_policy, -0.00001, random_policy=self.random_policy)

Beispiel #8

Datei anzeigen

Datei: py_epsilon_greedy_policy_test.py Projekt: GitHub30/agents

 def testCtorAutoRandomPolicy(self):
     self.greedy_policy.action_spec = mock.MagicMock()
     policy = py_epsilon_greedy_policy.EpsilonGreedyPolicy(
         self.greedy_policy, 0.5)
     self.assertEqual(self.greedy_policy.action_spec(),
                      policy._random_policy.action_spec())

Beispiel #9

Datei anzeigen

 def testCtorAutoRandomPolicy(self):
     policy = py_epsilon_greedy_policy.EpsilonGreedyPolicy(
         self.greedy_policy, 0.5)
     self.assertEqual(self.greedy_policy.action_spec,
                      policy._random_policy.action_spec)