Python Counter 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: utils.util

메소드/함수: Counter

hotexamples.com에서의 예제들: 8

Python Counter - 8개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 utils.util.Counter에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: policyIteration.py 프로젝트: xiaoyangxiaoen/DeepReinforcementLearning

    def runPolicyIteration(self):
        # initialize
        self.initialize()

        iterCount = 0
        while True:
            # policy improvement
            oldValues = util.Counter()
            while True:
                # pre-store the state values of last iteration
                for state, value in self.values.items():
                    oldValues[state] = value

                delta = 0.0
                for state in self.mdp.getStates():
                    oldValue = self.values[state]
                    action = self.policy[state]
                    successors = self.mdp.getTransitionStatesAndProbs(
                        state, action)
                    if len(successors) == 0:  # for terminal state if any
                        continue
                    saValue = 0
                    for nextState, prob in successors:
                        saValue += prob * (
                            self.mdp.getReward(state, action, nextState) +
                            self.gamma * oldValues[nextState])
                    self.values[state] = saValue
                    #delta = max(delta, abs(self.values[state] - oldValues[state]))
                    delta = max(delta, abs(self.values[state] - oldValue))
                if delta <= self.theta:
                    break

            # policy extraction
            policyStable = True
            for state in self.mdp.getStates():
                oldAction = self.policy[state]
                actions = self.mdp.getPossibleActions(state)
                if len(actions) == 0:  # for terminal state, if any
                    self.policy[state] = None
                    continue
                actionValues = util.Counter()
                for action in actions:
                    successors = self.mdp.getTransitionStatesAndProbs(
                        state, action)
                    saValue = 0
                    for nextState, prob in successors:
                        saValue += prob * (
                            self.mdp.getReward(state, action, nextState) +
                            self.gamma * oldValues[nextState])
                    actionValues[action] = saValue
                bestAction = actionValues.argMax()
                self.policy[state] = bestAction
                if oldAction != self.policy[state]:
                    policyStable = False

            # if policy stable, converge!
            iterCount += 1
            print("Iteration: ", iterCount)
            if policyStable or iterCount >= self.iterations:
                break

예제 #2

파일 보기

파일: valueIteration.py 프로젝트: xiaoyangxiaoen/DeepReinforcementLearning

    def runValueIteration(self):
        iterCount = 0
        oldValues = util.Counter()
        while True:
            # pre-store the state values of last iteration
            for state,value in self.values.items():
                oldValues[state] = value

            delta = 0.0
            for state in self.mdp.getStates():
                actions = self.mdp.getPossibleActions(state)
                if len(actions) == 0:
                    continue

                actionValues = util.Counter()
                for action in actions:
                    successors = self.mdp.getTransitionStatesAndProbs(state, action)
                    saValue = 0
                    for nextState,prob in successors:
                        saValue += prob * (self.mdp.getReward(state, action, nextState) +
                                           self.gamma * oldValues[nextState])
                    actionValues[action] = saValue
                maxValue = actionValues[actionValues.argMax()]
                self.values[state] = maxValue
                delta = max(delta, abs(self.values[state] - oldValues[state]))

            iterCount += 1
            #if iterCount % 100 == 0:
            print("Iteration: ", iterCount)
            if iterCount >= self.iterations or delta <= self.theta:
                break
        print("Value Iteration Converged!")
        print("delta: ", delta)

예제 #3

파일 보기

파일: policyIteration.py 프로젝트: xiaoyangxiaoen/DeepReinforcementLearning

 def __init__(self, mdp, gamma=1.0, iterations=500, theta=0.01):
     self.mdp = mdp  # markov decision process to be solved
     self.gamma = gamma  # discount factor
     self.iterations = iterations  # max iterations
     self.theta = theta  # a small threshold
     self.values = util.Counter()  # values
     self.policy = util.Counter()  # policy

예제 #4

파일 보기

    def getPolicy(self, state, legalActions):
        possibleStateQValues = util.Counter()

        for action in legalActions:
            possibleStateQValues[action] = self.getQValue(state, action)

        return possibleStateQValues.argMax()

예제 #5

파일 보기

파일: valueIteration.py 프로젝트: xiaoyangxiaoen/DeepReinforcementLearning

    def computeActionFromValues(self, state):
        actions = self.mdp.getPossibleActions(state)
        if len(actions) == 0:   # terminal state
            return None

        actionValues = util.Counter()
        for action in actions:
            successors = self.mdp.getTransitionStatesAndProbs(state, action)
            saValue = 0.0
            for nextState, prob in successors:
                saValue += prob * (self.mdp.getReward(state, action, nextState) +
                                   self.gamma * self.values[nextState])
            actionValues[action] = saValue
        #maxValue = actionValues[actionValues.argMax()]
        #bestActions = [action for action,value in actionValues.items() if value == maxValue]
        #return random.choice(bestActions)   # break ties if any
        bestAction = actionValues.argMax()  # don't care about ties
        return bestAction

예제 #6

파일 보기

    def __init__(self, **args):
        "You can initialize Q-values here..."
        ReinforcementAgent.__init__(self, **args)

        "*** YOUR CODE HERE ***"
        self.qvals = util.Counter()

예제 #7

파일 보기

    def getValue(self, state):
        possibleStateQValues = util.Counter()
        for action in self.getLegalActions(state):
            possibleStateQValues[action] = self.getQValue(state, action)

        return possibleStateQValues[possibleStateQValues.argMax()]

예제 #8

파일 보기

 def __init__(self, config):
     super(SarsaApproxAgent, self).__init__(config)
     self.featureExtractor = getattr(featureExtractor, config['featureExtractor'])
     self.weights = util.Counter()