Python RandomAgent.select_action 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: agent

클래스/타입: RandomAgent

메소드/함수: select_action

hotexamples.com에서의 예제들: 2

Python RandomAgent.select_action - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 agent.RandomAgent.select_action에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

RandomAgent(30)

act(5)

load_model(2)

play(2)

select_action(2)

update(2)

action(1)

chooseAction(1)

evaluate_action(1)

getPoint(1)

get_action(1)

player(1)

reset(1)

step(1)

take_turn(1)

예제 #1

파일 보기

파일: main.py 프로젝트: radia408/MDP

def markovDecision(layout, circle):
    env = SnakesAndLadder(layout, circle)
    agent = RandomAgent(env.action_space)

    n_episodes = 50

    for episode in range(n_episodes):
        state = env.reset()
        done = False
        while not done:
            action = agent.select_action(state)
            next_state, reward, done = env.step(action)

            agent.update(state, action, reward, next_state)

            state = next_state

예제 #2

파일 보기

def collect_random_data(agent):
    env = Env()
    random_agent = RandomAgent()
    end = False
    states = []
    actions = []
    rewards = []
    data = []
    discount_G = 1.0
    G = 0.
    t = 0
    while not end:
        states.append(env.state)
        action = random_agent.select_action(env.feasible_actions)
        action_index = 4 * action[0] + action[1]
        actions.append(action_index)
        reward, _, end = env.step(action)
        rewards.append(reward)
        # discount = gamma
        # for s in range(t):
        # 	values[t-s-1] += discount * reward
        # 	discount = discount * gamma
        t += 1
        G += discount_G * reward
        discount_G = discount_G * agent.gamma

    R = 0.

    # evaluate state values of all states encountered in a batch to save time
    state_values = agent.net.get_value(
        np.array(states).reshape(-1, 7, 7, agent.state_channels)).reshape(-1)

    for s in range(t):
        R = rewards[t - s - 1] + agent.gamma * R
        advantage = R - state_values[t - s - 1]
        data = [
            dict({
                "state": states[t - s - 1],
                "advantage": advantage,
                "action": actions[t - s - 1],
                "critic_target": R
            })
        ] + data

    assert (G == R)
    assert (len(state_values) == len(states) == len(actions) == len(rewards) ==
            t)

    # data = []
    # for s in range(len(states)-1):
    # 	advantage = rewards[s] + values[s+1] - values[s]
    # 	data.append(dict({"state" : states[s],
    # 					  "advantage" : advantage,
    # 					  "critic_target" : values[s],
    # 					  "action" : actions[s]}))

    # T = len(states)-1
    # advantage = rewards[T] - values[T] # next state value is 0 because it is terminal
    # data.append(dict({"state" : states[T],
    # 				  "advantage" : advantage,
    # 				  "critic_target" : values[T],
    # 				  "action" : actions[T]}))

    return data