Python InfoMaxTask.InfoMaxTask 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tasks

클래스/타입: InfoMaxTask

메소드/함수: InfoMaxTask

hotexamples.com에서의 예제들: 2

Python InfoMaxTask.InfoMaxTask - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tasks.InfoMaxTask.InfoMaxTask에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

InfoMaxTask(2)

getObservation(1)

getReward(1)

getTotalReward(1)

isFinished(1)

performAction(1)

reset(1)

예제 #1

파일 보기

파일: agent.py 프로젝트: ntrntr/ua-ros-pkg

    def train(self, episodes, maxSteps):

        avgReward = 0

        # set up environment and task
        self.env = InfoMaxEnv(self.objectNames, self.actionNames,
                              self.numCategories)
        self.task = InfoMaxTask(self.env, maxSteps=maxSteps, \
           do_decay_beliefs = True, uniformInitialBeliefs = True)

        # create neural net and learning agent
        self.params = buildNetwork(self.task.outdim, self.task.indim, \
            bias=True, outclass=SoftmaxLayer)

        if self._PGPE:
            self.agent = OptimizationAgent(self.params,
                                           PGPE(minimize=False, verbose=False))
        elif self._CMAES:
            self.agent = OptimizationAgent(
                self.params, CMAES(minimize=False, verbose=False))

        # init and perform experiment
        exp = EpisodicExperiment(self.task, self.agent)

        for i in range(episodes):
            exp.doEpisodes(1)
            avgReward += self.task.getTotalReward()
            print "reward episode ", i, self.task.getTotalReward()

        # print initial info
        print "\naverage reward over training = ", avgReward / episodes

        # save trained network
        self._saveWeights()

예제 #2

파일 보기

파일: agent.py 프로젝트: ntrntr/ua-ros-pkg

    def run(self, maxSteps):

        self.env = InfoMaxEnv(self.objectNames, self.actionNames,
                              self.numCategories)
        self.task = InfoMaxTask(self.env, maxSteps=maxSteps, \
           do_decay_beliefs = True, uniformInitialBeliefs = True)
        self.task.reset()

        # load network if we're just running, not training
        self.params = pickle.load(open('infomaxNet.pkl'))
        self.params.sorted = False
        self.params.sortModules()

        print "\n"
        while not self.task.isFinished():

            # get initial observation of environment
            obs_pre = self.task.getObservation()

            print "State pre"
            #print self.task.showBeliefs()		# use formatted print beliefs function
            print self.task.getObservation()

            # send observation to net for an action vector
            action = self.params.activate(obs_pre)

            # send action vector to robot
            self.task.performAction(action)

            print "State post"
            #print self.task.showBeliefs()
            print self.task.getObservation()

            # calculate and show reward
            print "reward", self.task.getReward()
            print "\n"

        print "total reward =", self.task.getTotalReward()
        print "\n"