Python QLearning.planFromState Examples

Programming Language: Python

Namespace/Package Name: burlap.behavior.singleagent.learning.tdmethods

Class/Type: QLearning

Method/Function: planFromState

Examples at hotexamples.com: 2

Python QLearning.planFromState - 2 examples found. These are the top rated real world Python examples of burlap.behavior.singleagent.learning.tdmethods.QLearning.planFromState extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

QLearning(5)

runLearningEpisode(4)

initializeForPlanning(2)

planFromState(2)

setDebugCode(2)

setLearningPolicy(1)

setLearningRateFunction(1)

Example #1

Show file

def qLearning(world, userMap, maxX, maxY, discount=0.9, MAX_ITERATIONS=1000):
    gen = BasicGridWorld(userMap, maxX, maxY)
    domain = gen.generateDomain()
    initialState = gen.getExampleState(domain);

    rf = BasicRewardFunction(maxX, maxY, userMap)
    tf = BasicTerminalFunction(maxX, maxY)
    env = SimulatedEnvironment(domain, rf, tf, initialState)
    visualizeInitialGridWorld(domain, gen, env)

    hashingFactory = SimpleHashableStateFactory()
    timing = defaultdict(list)
    rewards = defaultdict(list)
    steps = defaultdict(list)
    convergence = defaultdict(list)

    allStates = getAllStates(domain, rf, tf, initialState)

    MAX_ITERATIONS = MAX_ITERATIONS
    NUM_INTERVALS = MAX_ITERATIONS;
    iterations = range(1, MAX_ITERATIONS + 1)
    qInit = 0
    for lr in [0.01, 0.1, 0.5]:
        for epsilon in [0.3, 0.5, 0.7]:
            last10Chg = deque([10] * 10, maxlen=10)
            Qname = 'Q-Learning L{:0.2f} E{:0.1f}'.format(lr, epsilon)
            #agent = QLearning(domain, discount, hashingFactory, qInit, lr, epsilon, 300)
            agent = QLearning(domain, discount, hashingFactory, qInit, lr, epsilon)
            agent.setDebugCode(0)

            print("*** {}: {}".format(world, Qname))

            for nIter in iterations:
                if nIter % 200 == 0: 
                    print('Iteration: {}'.format(nIter))

                startTime = clock()
                #ea = agent.runLearningEpisode(env, 300)
                ea = agent.runLearningEpisode(env)
                env.resetEnvironment()
                agent.initializeForPlanning(rf, tf, 1)
                p = agent.planFromState(initialState)  # run planning from our initial state
                endTime = clock()
                timing[Qname].append((endTime-startTime)*1000)

                last10Chg.append(agent.maxQChangeInLastEpisode)
                convergence[Qname].append(sum(last10Chg)/10.)
                # evaluate the policy with one roll out visualize the trajectory
                runEvals(initialState, p, rewards[Qname], steps[Qname], rf, tf, evalTrials=1)
                if nIter % 1000 == 0:
                    dumpPolicyMap(MapPrinter.printPolicyMap(allStates, p, gen.getMap()),
                                  '{} {} Iter {} Policy Map.pkl'.format(world, Qname, nIter))
                    simpleValueFunctionVis(agent, p, initialState, domain, hashingFactory, Qname)
                
            dumpCSV(nIter, timing[Qname], rewards[Qname], steps[Qname], convergence[Qname], world, Qname)

Example #2

Show file

File: easyGW.py Project: shaan0056/Reinforcement-Learning

                for nIter in iterations:
                    if nIter % 50 == 0: print(nIter)
                    startTime = clock()
                    ea = agent.runLearningEpisode(env, 300)
                    # if len(timing[Qname])> 0:
                    #     timing[Qname].append(timing[Qname][-1]+clock()-startTime)
                    # else:
                    #timing[Qname].append((clock()-startTime) * 1000)
                    if len(timing[Qname]) > 0:
                        timing[Qname].append(timing[Qname][-1] + clock() -
                                             startTime)
                    else:
                        timing[Qname].append(clock() - startTime)
                    env.resetEnvironment()
                    agent.initializeForPlanning(rf, tf, 1)
                    p = agent.planFromState(
                        initialState)  # run planning from our initial state
                    last10Chg.append(agent.maxQChangeInLastEpisode)
                    convergence[Qname].append(sum(last10Chg) / 10.)
                    # evaluate the policy with one roll out visualize the trajectory
                    runEvals(initialState, p, rewards[Qname], steps[Qname])
                    # if nIter == 50 :
                    #     dumpPolicyMap(MapPrinter.printPolicyMap(allStates, p, gen.getMap()),'QL {} {} Iter {} Policy Map.pkl'.format(Qname,world,nIter))
                    if convergence[Qname][-1] < 0.5:

                        #dumpPolicyMap(MapPrinter.printPolicyMap(allStates, p, gen.getMap()),'QL {} {} Iter {} Policy Map.pkl'.format(Qname,world,nIter))
                        if flag:
                            simpleValueFunctionVis(agent, p, initialState,
                                                   domain, hashingFactory,
                                                   Qname + ' {}'.format(nIter))
                            flag = False