Python GridWorld.isOutsideBounds 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: GridWorld

클래스/타입: GridWorld

메소드/함수: isOutsideBounds

hotexamples.com에서의 예제들: 1

Python GridWorld.isOutsideBounds - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 GridWorld.GridWorld.isOutsideBounds에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

GridWorld(30)

move(4)

bestMove(4)

reset(4)

printValueGrid(4)

printReturnGrid(4)

printPolicyGrid(4)

possibleMoves(4)

gameOver(3)

scan_grid_and_generate_graph(2)

save_graph(2)

render(2)

print_graph(2)

setDiscountFactor(2)

after(2)

createSquareCount(2)

create_grid_ui(2)

getActions(1)

printQValues(1)

move_on_given_route_aco(1)

move_on_given_route_genetic(1)

players(1)

get(1)

printPolicy(1)

generateWalls(1)

dfs_route(1)

generateGoals(1)

move_on_given_route(1)

printValues(1)

print_map(1)

randomAction(1)

cells(1)

addRandomObstacles(1)

move_on_given_route_a_star(1)

getAccessibleCells(1)

getAgentPose(1)

get_next_state(1)

getLength(1)

getPoseFromAction(1)

getPredFromPose(1)

getState(1)

getStateSpace(1)

getTotalSteps(1)

get_grid_world(1)

get_number_of_actions(1)

make_grid_world(1)

get_number_of_states(1)

get_rewards(1)

addAgent(1)

gridDefine(1)

예제 #1

파일 보기

class GridAgent:
    def __init__(self,
                 epsilon=0.01,
                 greedy=False,
                 alpha=0.1,
                 gamma=0.95,
                 visual=True,
                 goal=(10, 8),
                 agentPose=(1, 1, 'up'),
                 showTrial=True,
                 randomReset=False,
                 epsilonStrat=1,
                 epsilonFactor=500):
        """
        gridWorld: GridWorld object
        epsilon: value used for epsilon greedy search
        alpha: step size
        gamma: discount favtor
        """
        self.actionValues = Counter()
        self.epsilonFactor = epsilonFactor
        self.randomReset = randomReset
        self.epsilon = epsilon
        self.greedy = greedy
        self.epsilonStrat = epsilonStrat
        self.goal = goal
        self.Q = dict()
        self.gridWorld = GridWorld(goal,
                                   agentPose,
                                   visual=visual,
                                   showTrial=showTrial,
                                   randomReset=randomReset)
        self.actions = self.gridWorld.getActions()
        self.Model = dict()
        self.alpha = alpha
        self.PriorityQueue = PriorityQueue()
        self.gamma = gamma
        self.exp = []
        self.rewards = dict()
        self.rewardNums = dict()
        self.predecessors = defaultdict(set)
        self.initQValues()

    def initQValues(self):
        """
        Output: initializes both model and Q values for all states provided by GridWorld
        """
        states = self.gridWorld.getStateSpace()
        for s in states:
            self.Q[s] = Counter()
            self.rewards[s] = 0
            self.rewardNums[s] = 0
            for a in self.actions:
                news = self.gridWorld.getPoseFromAction(s, a)
                if self.gridWorld.isOutsideBounds(news): news = s
                self.Model[(s, a)] = (0, news)
                self.Q[s].keyValue(a, 0)

    def printQValues(self, pose):
        print('actionValues: ', self.Q[pose].getDict())

    def getBestAction(self, pose):
        """
        Pose: (x,y,orientation) tuple representing a pose in grid world
        returns: best action to take dependent on the current Q values
        """
        return self.Q[pose].argmax()

    def getAction(self, pose):
        """
        pose: (x,y,pose) tuple representing 
        returns: action selected from epsilon greedy strategy
        """
        if self.epsilonStrat == 1: self.epsilon = self.epsilon
        elif self.epsilonStrat == 2:
            self.epsilon = self.epsilonFactor / (
                self.gridWorld.getTotalSteps() + 1)
        elif self.epsilonStrat == 3:
            if self.epsilon > .0001:
                self.epsilon -= .0001
        if self.greedy:
            bestAction, _ = self.getBestAction(pose)
            action = bestAction
            return action
        else:
            p = random.uniform(0, 1)
            if p > self.epsilon:
                action, value = self.getBestAction(pose)

            else:
                action = random.choice(list(self.Q[pose].getKeys()))
            #e(g('pose'))
            #print(self.Q[pose].getValues())
            return action

    def getRandomSFromExp(self):
        """
        returns random previously observed state
        """
        if len(self.exp) == 1:
            s, a = self.exp[0]
            return s
        randomInt = random.randint(0, len(self.exp) - 1)
        s, a = self.exp[randomInt]
        return s

    def getRandomAFromRandomS(self, S):
        """
        S: pose (x,y,orientation) tuple representing a pose in grid world
        returns: an action which was previously taken from state S
        """
        aList = []
        for s, a in self.exp:
            if S == s:
                aList += [a]
        return random.choice(aList)

    def getSA(self):
        """
        returns a random state with a random action. Both must have previously happened 
        """
        S = self.getRandomSFromExp()
        A = self.getRandomAFromRandomS(S)
        return S, A

    def updateExp(self, S, A, maxElements):
        """
        args:
            S - tuple of (x,y,orientation)
            A - action
            maxElements - integer, max number of elements to store in experience
        output: 
            - updates experience, where if the number of elements in 
            experience is above maxElements, a random element is removed.
        """
        if len(self.exp) > maxElements:
            randomInt = random.randint(0, len(self.exp) - 1)
            removedElement = self.exp.pop(randomInt)
        self.exp.append((S, A))

    def tabDynaQ(
            self,
            ndirect,  # number of iterations for direct learning
            nplanning,  # number of iterations for planning
            maxExp,  # maximum number of elements to keep in experience
    ):
        """
        learns the Q values using Dyna-Q planning with tabular (deterministic) model
        """
        for i in range(ndirect):
            S = self.gridWorld.getAgentPose()
            A = self.getAction(S)
            self.exp += [(S, A)]
            self.updateExp(S, A, maxExp)
            R, Su = self.gridWorld.takeStep(A)
            Q = self.Q

            delta = R + self.gamma * Q[Su].max() - Q[S].at(A)
            self.Q[S].keyValue(A, Q[S].at(A) + self.alpha * delta)
            self.Model[(S, A)] = (R, Su)
            for j in range(nplanning):
                S, A = self.getSA()
                R, Su = self.Model[(S, A)]
                delta = R + self.gamma * Q[Su].max() - Q[S].at(A)
                self.Q[S].keyValue(A, Q[S].at(A) + self.alpha * delta)

    def updateRewards(self, state, R):
        self.rewards[state] += R
        self.rewardNums[state] += 1

    def getRewardAvg(self, state):
        if self.rewardNums[state] == 0: return 0
        else: return self.rewards[state] / self.rewardNums[state]

    def updatePredecessors(self, S, A, Su):
        self.predecessors[Su].add((S, A))

    def PrioritySweep(self, ndirect, nplanning, theta=0.1):

        for i in range(ndirect):
            S = self.gridWorld.getAgentPose()
            A = self.getAction(S)
            R, Su = self.gridWorld.takeStep(A)
            self.updatePredecessors(S, A, Su)
            self.updateRewards(Su, R)
            self.Model[(S, A)] = (R, Su)
            Q = self.Q

            P = abs(R + self.gamma * Q[Su].max() - Q[S].at(A))

            if P > theta: self.PriorityQueue.put((-P, (S, A)))
            iterCount = 0
            while iterCount < nplanning and not self.PriorityQueue.empty():

                P, item = self.PriorityQueue.get()

                S, A = item
                R, Su = self.Model[(S, A)]
                delta = R + self.gamma * Q[Su].max() - Q[S].at(A)
                self.Q[S].keyValue(A, Q[S].at(A) + self.alpha * delta)
                predStates = self.gridWorld.getPredFromPose(S)
                for SB, AB in predStates:

                    RB, _ = self.Model[(SB, AB)]
                    P = abs(RB + self.gamma * Q[S].max() - Q[SB].at(AB))
                    if P > theta:
                        self.PriorityQueue.put((-P, (SB, AB)))
                iterCount += 1

    def tabDynaQ_Traj(
            self,
            ndirect,  # number of iterations for direct learning
            ntrajectories,
            nplanning,
            numMaxExp  # number of iterations for planning
    ):
        """
        args:
            ndirect - number of iterations for direct learning
            ntrajectories - number of individual trajectories to test
            nplanning - number of steps to take for each trajectory
        learns the Q values using Dyna-Q planning with tabular (deterministic) model
        """
        for i in range(ndirect):
            S = self.gridWorld.getAgentPose()
            A = self.getAction(S)
            self.updateExp(S, A, numMaxExp)
            R, Su = self.gridWorld.takeStep(A)
            Q = self.Q

            delta = R + self.gamma * Q[Su].max() - Q[S].at(A)
            self.Q[S].keyValue(A, Q[S].at(A) + self.alpha * delta)
            self.Model[(S, A)] = (R, Su)
            for t in range(ntrajectories):
                initState = self.getRandomSFromExp()
                for j in range(nplanning):
                    if j == 0: S = initState
                    A, _ = self.getBestAction(S)

                    R, Su = self.Model[(S, A)]
                    delta = R + self.gamma * Q[Su].max() - Q[S].at(A)
                    self.Q[S].keyValue(A, Q[S].at(A) + self.alpha * delta)
                    S = Su

    def learn(self, ndirect, nplanning, theta, learner, ntrajectories,
              maxNumExp):
        if learner == 1:
            self.tabDynaQ(ndirect, nplanning, maxNumExp)
        elif learner == 2:
            self.PrioritySweep(ndirect, nplanning, theta)
        elif learner == 3:
            self.tabDynaQ_Traj(ndirect, ntrajectories, nplanning, maxNumExp)