Python Agent.numTrt 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: agent

클래스/타입: Agent

메소드/함수: numTrt

hotexamples.com에서의 예제들: 4

Python Agent.numTrt - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 agent.Agent.numTrt에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

act(30)

Agent(30)

__init__(30)

bind_udp_sockets(6)

agent_factory(5)

act_e_greedy(5)

act_and_train(4)

numTrt(4)

numValidTrt(4)

perform_production(4)

setLocation(3)

getMoveList(2)

find(2)

_getReward(2)

_getState(2)

populate_replay_memory(2)

_set_position(2)

MCTS(2)

GetAgentByEmail(2)

expand(1)

get_qq_name_id(1)

enter_group_v2(1)

do_nothing(1)

f_train(1)

check_group_msg(1)

findAll(1)

bash(1)

estimate(1)

Action(1)

get_state_value(1)

print_it(1)

update_experience(1)

turn(1)

stock_experience(1)

simulateAgent(1)

set_board(1)

send_group_msg(1)

rand(1)

present_word(1)

handle(1)

present_number(1)

play_in_test_mode(1)

nextSymbols(1)

nextArticle(1)

new(1)

loop(1)

load_group_list(1)

locAfterMove(1)

a_star_manhattan(1)

act_detail(1)

예제 #1

파일 보기

파일: valueIteration.py 프로젝트: nickjmeyer/stdmMf

    def solve(system,initV = None, gamma = 0.9):
        numNodes = system.network.numNodes
        numTrt = Agent.numTrt(system)
        numValidTrt = Agent.numValidTrt(numNodes,numTrt)

        if initV is None:
            initV = np.zeros((1 << numNodes,))


        it = 0
        maxIt = 1000
        tol = 1e-8
        cont = True

        v0 = initV

        while cont:
            v1 = ValueIteration.operT(system,gamma,v0)

            it += 1

            if np.linalg.norm(v1 - v0,2) < tol or it == maxIt:
                cont = False

            v0 = v1

        if it == maxIt:
            raise ValueError("ValueIteration hit iteration limit")

        return v0

예제 #2

파일 보기

파일: valueIteration.py 프로젝트: nickjmeyer/stdmMf

    def operT(system,gamma,v):
        numNodes = system.network.numNodes
        numTrt = Agent.numTrt(system)
        numValidTrt = Agent.numValidTrt(numNodes,numTrt)

        vForA = np.zeros((1 << numNodes, numValidTrt))
        for aInd in range(numValidTrt):
            P,R = ValueIteration.calcPAndR(system,aInd)
            vForA[:,aInd] = (R + gamma * (P.dot(v)))

        return np.amax(vForA,1)

예제 #3

파일 보기

파일: valueIteration.py 프로젝트: nickjmeyer/stdmMf

    def unitTest(cls):
        print "Testing ValueIteration"
        np.random.seed(0)
        from system import System
        from networks import genGridNetwork
        from model import PJ


        system = System(genGridNetwork((3,3)),PJ())
        numNodes = system.network.numNodes
        numTrt = Agent.numTrt(system)
        numValidTrt = Agent.numValidTrt(numNodes,numTrt)

        v = ValueIteration.solve(dc(system))

        q = PolicyIteration.solve(dc(system))
        q = util.unflattenQ(q,numNodes,numValidTrt)
        vChk = [max(i) for i in q]

        for i in zip(v,vChk):
            print "% 12.6f  % 10.6f" % i

예제 #4

파일 보기

파일: valueIteration.py 프로젝트: nickjmeyer/stdmMf

    def calcPAndR(system,trtInd):
        numNodes = system.network.numNodes
        numTrt = Agent.numTrt(system)
        numValidTrt = Agent.numValidTrt(numNodes,numTrt)


        P = np.zeros((1 << numNodes,1 << numNodes))
        R = np.zeros((1 << numNodes,))

        trtCmb = util.ind2Combo(trtInd,numNodes,numTrt)
        system.trtCmb(cmb = trtCmb)
        for s in range(1 << numNodes):
            system.infCmb(cmb = s)
            probs = system.model.transProbs(system)
            for sp in range(1 << numNodes):
                changes = s ^ sp
                prob = 0.0
                ind = 1
                for i in range(numNodes):
                    if changes & ind:
                        if probs[i] < 1e-13:
                            prob += -30
                        else:
                            prob += np.log(probs[i])
                    else:
                        if 1.0 - probs[i] < 1e-13:
                            prob += -30
                        else:
                            prob += np.log(1.0 - probs[i])
                    ind <<= 1

                prob = np.exp(prob)


                P[s,sp] = prob

                r = reward(s,trtCmb,sp,numNodes)
                R[s] += prob * r

        return P,R