Python EpsilonGreedy.action_counts_temp Exemples

Langage de programmation: Python

Espace de nommage/Pack: obp.policy.contextfree

Class/Type: EpsilonGreedy

Méthode/Fonction: action_counts_temp

Exemples au hotexamples.com: 2

Python EpsilonGreedy.action_counts_temp - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de obp.policy.contextfree.EpsilonGreedy.action_counts_temp extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

EpsilonGreedy(8)

action_counts(4)

reward_counts(4)

action_counts_temp(2)

reward_counts_temp(2)

select_action(2)

update_params(2)

Méthodes fréquemment utilisées

EpsilonGreedy (8)

action_counts (4)

reward_counts (4)

action_counts_temp (2)

reward_counts_temp (2)

select_action (2)

update_params (2)

Exemple #1

0

Afficher le fichier

def test_egreedy_update_params(): policy = EpsilonGreedy(n_actions=2, epsilon=1.0) policy.action_counts_temp = np.array([4, 3]) policy.action_counts = np.copy(policy.action_counts_temp) policy.reward_counts_temp = np.array([2.0, 0.0]) policy.reward_counts = np.copy(policy.reward_counts_temp) action = 0 reward = 1.0 policy.update_params(action, reward) assert np.array_equal(policy.action_counts, np.array([5, 3])) assert np.allclose(policy.reward_counts, np.array([2.0 + reward, 0.0]))

Exemple #2

0

Afficher le fichier

def test_egreedy_update_params(): policy = EpsilonGreedy(n_actions=2, epsilon=1.0) policy.action_counts_temp = np.array([4, 3]) policy.action_counts = np.copy(policy.action_counts_temp) policy.reward_counts_temp = np.array([2.0, 0.0]) policy.reward_counts = np.copy(policy.reward_counts_temp) action = 0 reward = 1.0 policy.update_params(action, reward) assert np.array_equal(policy.action_counts, np.array([5, 3])) # in epsilon greedy, reward_counts is defined as the mean of observed rewards for each action next_reward = (2.0 * (5 - 1) / 5) + (reward / 5) assert np.allclose(policy.reward_counts, np.array([next_reward, 0.0]))