Python TableEstimator.getBestAction示例

编程语言: Python

命名空间/包名称: dopamine.agents.valuebased.table

类/类型: TableEstimator

方法/功能: getBestAction

hotexamples.com的示例: 1

Python TableEstimator.getBestAction - 已找到1个示例。这些是从开源项目中提取的最受好评的dopamine.agents.valuebased.table.TableEstimator.getBestAction现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

getBestAction(1)

getValue(1)

updateValue(1)

示例#1

显示文件

文件： q.py 项目： rueckstiess/dopamine

class QAgent(Agent):
    
    alpha = 0.5
    gamma = 0.9
    
    def _setup(self, conditions):
        """ if agent is discrete in states and actions create Q-Table. """
        Agent._setup(self, conditions)
        if not (self.conditions['discreteStates'] and self.conditions['discreteActions']):
            raise AgentException('QAgent expects discrete states and actions. Use adapter or a different environment.')
            
        self.estimator = TableEstimator(self.conditions['stateNum'], self.conditions['actionNum'])
    
    def _calculate(self):
        self.action = self.estimator.getBestAction(self.state)
    
    def learn(self):
        """ go through whole episode and make Q-value updates. """
        for episode in self.history:
            for state, action, reward, nextstate in episode:
                state = int(state)
                action = int(action)
     
                qvalue = self.estimator.getValue(state, action)
                if nextstate != None:
                    nextstate = int(nextstate)
                    maxnext = self.estimator.getValue(nextstate, self.estimator.getBestAction(nextstate))
                else:
                    maxnext = 0.

                self.estimator.updateValue(state, action, qvalue + self.alpha * (reward + self.gamma * maxnext - qvalue))