Python UCB示例

编程语言: Python

命名空间/包名称: SMPyBandits.Policies

类/类型: UCB

hotexamples.com的示例: 17

Python UCB - 已找到17个示例。这些是从开源项目中提取的最受好评的SMPyBandits.Policies.UCB现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

getReward(7)

startGame(6)

__init__(4)

choice(2)

UCB(1)

示例#1

显示文件

文件： mabalgs.py 项目： icmlanonymous/CyMAB

 def getReward(self, arm, reward):
     UCB.getReward(self, arm, reward)
     self.budget += reward
     self.estmeans[arm] = (self.estmeans[arm] *
                           (self.pulls[arm] - 1) + reward) / self.pulls[arm]
     if (reward > 0):
         self.successes[arm] += 1

示例#2

显示文件

文件： mabalgs.py 项目： icmlanonymous/CyMAB

 def __init__(self,
              nbArms,
              inibudget=10.0,
              safebudget=1.0,
              lower=-1.0,
              amplitude=2.0):
     UCB.__init__(self, nbArms, lower=lower, amplitude=amplitude)
     SafeAlg.__init__(self, nbArms)

示例#3

显示文件

 def __init__(self,
              nbArms,
              inibudget=10.0,
              min_r=-1.0,
              max_r=+1.0,
              lower=0.0,
              amplitude=1.0):
     UCB.__init__(self, nbArms, lower=lower, amplitude=amplitude)
     Budgeted.__init__(self, inibudget=inibudget, min_r=min_r, max_r=max_r)
     BernoulliEstimator.__init__(self, nbArms)

示例#4

显示文件

 def getReward(self, arm, reward):
     UCB.getReward(self, arm, reward)
     if (reward >= 0):
         self.positive_count[arm] += 1
         self.positive_mean[arm] = (self.positive_mean[arm] *
                                    (self.positive_count[arm] - 1) +
                                    reward) / self.positive_count[arm]
     else:
         self.negative_count[arm] += 1
         self.negative_mean[arm] = (self.negative_mean[arm] *
                                    (self.negative_count[arm] - 1) +
                                    reward) / self.negative_count[arm]

示例#5

显示文件

 def __init__(self,
              nbArms,
              inibudget=10.0,
              safebudget=1.0,
              min_r=-1.0,
              max_r=+1.0,
              lower=0.0,
              amplitude=1.0):
     UCB.__init__(self, nbArms, lower=lower, amplitude=amplitude)
     SafeAlg.__init__(self,
                      nbArms,
                      inibudget=inibudget,
                      min_r=min_r,
                      max_r=max_r,
                      safebudget=safebudget)

示例#6

显示文件

""" Example of use of SMPyBandits.
See https://SMPyBandits.GitHub.io/API.html for more details!"""
import numpy as np
np.random.seed(0)  # for reproducibility
from SMPyBandits.Arms import Bernoulli
arms = [Bernoulli(0.1), Bernoulli(0.9)]
from SMPyBandits.Environment import MAB
my_MAB_problem = MAB(arms)
nbArms = my_MAB_problem.nbArms  # 2 arms !
from SMPyBandits.Policies import UCB
my_UCB_algo = UCB(nbArms)
my_UCB_algo.startGame()  # reset internal memory

horizon = 1000
for t in range(horizon):  # simulation loop
    chosen_arm = my_UCB_algo.choice()
    observed_reward = my_MAB_problem.draw(chosen_arm)
    my_UCB_algo.getReward(chosen_arm, observed_reward)

cumulated_reward = sum(my_UCB_algo.rewards)  # random!
number_of_plays = sum(my_UCB_algo.pulls)  # horizon = 1000
mean_reward = cumulated_reward / number_of_plays
print("The UCB algorithm obtains here a mean reward =", mean_reward)

示例#7

显示文件

文件： mabalgs.py 项目： icmlanonymous/CyMAB

 def startGame(self):
     UCB.startGame(self)
     self.budget = self.inibudget
     self.estmeans.fill(0.0)
     self.successes.fill(0)

示例#8

显示文件

 def startGame(self):
     UCB.startGame(self)
     Budgeted.startGame(self)
     BernoulliEstimator.startGame(self)

示例#9

显示文件

文件： mabalgs.py 项目： icmlanonymous/CyMAB

 def getReward(self, arm, reward):
     UCB.getReward(self, arm, reward)
     self.budget += reward

示例#10

显示文件

文件： mabalgs.py 项目： icmlanonymous/CyMAB

 def __init__(self, nbArms, inibudget=10.0, lower=-1.0, amplitude=2.0):
     UCB.__init__(self, nbArms, lower=lower, amplitude=amplitude)
     self.inibudget = inibudget
     self.budget = inibudget
     self.estmeans = np.zeros(nbArms)
     self.successes = np.zeros(nbArms, dtype='int')

示例#11

显示文件

文件： mabalgs.py 项目： icmlanonymous/CyMAB

 def getReward(self, arm, reward):
     UCB.getReward(self, arm, reward)
     SafeAlg.getReward(self, arm, reward)

示例#12

显示文件

文件： mabalgs.py 项目： icmlanonymous/CyMAB

 def choice(self):
     r = SafeAlg.choice(self)
     if r is None:
         r = UCB.choice(self)
     return r

示例#13

显示文件

文件： mabalgs.py 项目： icmlanonymous/CyMAB

 def startGame(self):
     UCB.startGame(self)
     SafeAlg.startGame(self)

示例#14

显示文件

 def getReward(self, arm, reward):
     UCB.getReward(self, arm, reward)
     Budgeted.getReward(self, reward)
     BernoulliEstimator.getReward(self, arm, reward)

示例#15

显示文件

 def startGame(self):
     UCB.startGame(self)
     self.reward_samples = [np.array([0.0]) for a in range(self.nbArms)]

示例#16

显示文件

 def startGame(self):
     UCB.startGame(self)
     self.positive_mean = nb.repeat(0.0, self.nbArms, dtype='float')
     self.negative_mean = nb.repeat(0.0, self.nbArms, dtype='float')
     self.positive_count = nb.repeat(0, self.nbArms, dtype='int')
     self.negative_count = nb.repeat(0, self.nbArms, dtype='int')

示例#17

显示文件

 def getReward(self, arm, reward):
     UCB.getReward(self, arm, reward)
     self.reward_samples[arm] = np.sort(
         np.append(self.reward_samples[arm], [reward]))