Python Bandit.percent примеры использования

Язык программирования: Python

Пространство имен/Пакет: bandit

Класс/Тип: Bandit

Метод/Функция: percent

Примеров на hotexamples.com: 3

Python Bandit.percent - 3 примера найдено. Это лучшие примеры Python кода для bandit.Bandit.percent, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Bandit(30)

calculate_regret(4)

report(4)

plot(4)

pull_arm(4)

percent(3)

pull(3)

get_connection(2)

reset(2)

play(1)

probexplore(1)

pull_lever(1)

make_move(1)

q_star(1)

random_action(1)

score(1)

setupBandit(1)

opinion(1)

knowledge(1)

make_dashboard(1)

allscores(1)

get_steps(1)

get_reward(1)

get_q_values(1)

get_mean_reward(1)

get_credits_demanded(1)

get_action(1)

gen_task(1)

find_opt(1)

experiment(1)

e_greedy(1)

draw(1)

done(1)

calculate_demand(1)

simulate(1)

Пример #1

Показать файл

Файл: ex2_5.py Проект: boldyshev/sutton

    # comment this line if run on windows or OS X (default method)
    mp.set_start_method('spawn')

    print('Start exercise 2.5... ')
    t1 = time.perf_counter()

    with mp.Pool(mp.cpu_count()) as pool:
        sample_av = np.array(pool.map(EpsGreedy(eps=0.1).rews_opts_nonstat, args))
        const_step = np.array(pool.map(EpsGreedyConstant(eps=0.1, alpha=0.1).rews_opts_nonstat, args))
        # got (2000, 2, 1000)-shaped arrays, axis=1 stands for rewards and optimals

    t2 = time.perf_counter()
    print(f'Done in {round(t2 - t1, 3)} sec')

    # get average rewards
    rewards = (sample_av[:, 0, :].mean(axis=0),
               const_step[:, 0, :].mean(axis=0))

    # get optimal action percentage
    optimals = (Bandit.percent(sample_av[:, 1, :]),
                Bandit.percent(const_step[:, 1, :]))

    # plot
    labels = ('Sample average\n' r'$\varepsilon=0.1$',
              'Constant step-size\n' r'$\varepsilon=0.1, \alpha=0.1$')
    Bandit.plot(rewards, labels, 'Average reward')
    Bandit.plot(optimals, labels, '% Optimal action')

    plt.show()

Пример #2

Показать файл

Файл: fig2_2.py Проект: boldyshev/sutton

    mp.set_start_method('spawn')

    print('Stationary greedy started...')
    t1 = time.perf_counter()

    with mp.Pool(mp.cpu_count()) as pool:

        def func(x):
            return np.array(pool.map(EpsGreedy(eps=x).rews_opts_stat, args))

        result = [func(eps) for eps in epsilons]
        # get 3 (2000, 2, 1000)-shaped arrays, axis=1 stands for rewards and optimals

    t2 = time.perf_counter()
    print(f'Done in {round(t2 - t1, 3)} sec')

    # get the average rewards
    rewards = [pair[:, 0, :].mean(axis=0) for pair in result]
    # get the percentage of the optimal actions
    optimals = [Bandit.percent(pair[:, 1, :]) for pair in result]

    # plotting
    colors = ('green', 'blue', 'red')
    labels = (r'$\varepsilon=0$ (greedy)', r'$\varepsilon=0.1$',
              r'$\varepsilon=0.01$')

    Bandit.plot(rewards, labels, 'Average reward')
    Bandit.plot(optimals, labels, '% Optimal action')

    plt.show()

Пример #3

Показать файл

        bl01 = np.array(
            pool.map(
                GradientBaseline(true_value=4, alpha=0.1).optimals_stat, args))
        bl04 = np.array(
            pool.map(
                GradientBaseline(true_value=4, alpha=0.4).optimals_stat, args))
        no_bl01 = np.array(
            pool.map(
                GradientNoBaseline(true_value=4, alpha=0.1).optimals_stat,
                args))
        no_bl04 = np.array(
            pool.map(
                GradientNoBaseline(true_value=4, alpha=0.4).optimals_stat,
                args))

    t2 = time.perf_counter()
    print(f'Done in {round(t2 - t1, 3)} sec')

    result = [bl01, bl04, no_bl01, no_bl04]
    # get percentages
    result = [Bandit.percent(i) for i in result]

    # plotting
    labels = (r'with baseline, $\alpha=0.1$', r'with baseline, $\alpha=0.4$',
              r'without baseline, $\alpha=0.1$',
              r'without baseline, $\alpha=0.4$')
    colors = ('blue', 'cornflowerblue', 'sienna', 'tan')

    Bandit.plot(result, labels, '% Optimal action', colors=colors)
    plt.show()