Python EGreedy.choose示例

编程语言: Python

命名空间/包名称: pulpo.bandits.epsilon_greedy

类/类型: EGreedy

方法/功能: choose

hotexamples.com的示例: 4

Python EGreedy.choose - 已找到4个示例。这些是从开源项目中提取的最受好评的pulpo.bandits.epsilon_greedy.EGreedy.choose现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

EGreedy(8)

choose(4)

update(3)

make_from_bandit_config(2)

reset(1)

示例#1

显示文件

    def test_should_always_select_winner_with_eps_1(self):
        loosing_arm = EpsilonGreedyArm('loosing_arm', n=1, reward_sum=1)
        winning_arm = EpsilonGreedyArm('winning_arm', n=1, reward_sum=1000.0)
        egreedy = EGreedy('my_bandit', [loosing_arm, winning_arm], epsilon=1.0)

        for _ in range(100):
            assert egreedy.choose().arm_id == 'winning_arm'

示例#2

显示文件

    def test_should_choose_an_arm(self):
        arm_names = ['arm1', 'arm2']
        arm = [EpsilonGreedyArm(name, n=1, reward_sum=1) for name in arm_names]
        egreedy = EGreedy('my_bandit', arm, epsilon=0.1)

        chosen_arm = egreedy.choose()

        assert chosen_arm.arm_id == 'arm1' or chosen_arm.arm_id == 'arm2'

示例#3

显示文件

    def test_should_run_for_several_iterations_and_sample_all_arms(self):
        arm_names = ['arm1', 'arm2', 'arm3']
        arm = [EpsilonGreedyArm(name, n=1, reward_sum=1) for name in arm_names]
        egreedy = EGreedy('my_bandit', arm, epsilon=0.1)

        num_steps = 100
        sampled_arm_ids = set()
        for _ in range(num_steps):
            arm = egreedy.choose()
            sampled_arm_ids.add(arm.arm_id)

            reward = 1.0 if random.random() < 0.2 else 0.0
            egreedy.update(Feedback(arm.arm_id, reward))

        assert sampled_arm_ids == set(arm_names)

示例#4

显示文件

    def test_should_reset_value_to_default(self):
        arm_names = ['arm1', 'arm2', 'arm3']
        arm = [EpsilonGreedyArm(name, n=1, reward_sum=1) for name in arm_names]
        egreedy = EGreedy('my_bandit', arm, epsilon=0.1)

        num_steps = 20
        for _ in range(num_steps):
            arm = egreedy.choose()

            reward = 1.0 if random.random() < 0.2 else 0.0
            egreedy.update(Feedback(arm_id=arm.arm_id, reward=reward))

        egreedy.reset()

        assert all([
            arm.reward_sum == 0 and arm.n == 0.001
            for arm in egreedy.arms_dict.values()
        ])