Python MarsRover.MarsRover 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: env

클래스/타입: MarsRover

메소드/함수: MarsRover

hotexamples.com에서의 예제들: 4

Python MarsRover.MarsRover - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 env.MarsRover.MarsRover에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

MarsRover(4)

reset(3)

step(3)

자주 사용되는 메소드들

MarsRover (4)

reset (3)

step (3)

예제 #1

파일 보기

def run_value_iteration(transition_probabilities=np.ones((5, 2)) * 0.5,
                        rewards=[1, 0, 0, 0, 10],
                        horizon=10,
                        gamma=0.9):
    v = np.zeros(5)
    env = MarsRover(transition_probabilities, rewards, horizon)
    done = False
    state = env.reset()
    i = 0
    while not done:
        i += 1
        print(f"This is step {i}")
        r1 = (rewards[state - 1] + gamma * v[state - 1])
        r2 = (rewards[state + 1] + gamma * v[state + 1])
        action = np.argmax([r1, r2])
        if r1 == r2:
            action = np.random.randint(2)
        new_state, reward, done = env.step(action)
        v, converged = update_value_function(v, state, new_state, reward)
        if converged:
            break
        state = new_state

    final_reward = evaluate_agent(v, env)

    print(
        f"Your agent achieved a final accumulated reward of {final_reward} after {i} update steps."
    )

    return v, i, final_reward

예제 #2

파일 보기

def run_policy_iteration(transition_probabilities=np.ones((5, 2)),
                         rewards=[1, 0, 0, 0, 10],
                         horizon=10):
    env = MarsRover(transition_probabilities, rewards, horizon)
    qs = np.zeros((5, 2))
    pi = np.random.randint(0, 2, size=5)

    done = False
    state = env.reset()
    i = 0
    while not done:
        i += 1
        print(f"This is step {i}")
        action = pi[state]
        new_state, reward, done = env.step(action)
        qs, pi, converged = update_policy(qs, pi, state, new_state, action,
                                          reward)
        if converged:
            break
        state = new_state

    final_reward = evaluate_policy(pi, env)

    print(
        f"Your policy achieved a final accumulated reward of {final_reward} after {i} update steps."
    )

    return pi, i, final_reward

예제 #3

파일 보기

파일: pe_dynamic_programming.py 프로젝트: kevin-schumann/rl2020-ex03-policy-evaluation

def evaluate_policy_dp(pi=np.random.randint(2, size=5),
                       transition_probabilities=np.ones((5, 2)),
                       rewards=[1, 0, 0, 0, 10]):
    env = MarsRover(transition_probabilities=transition_probabilities,
                    rewards=rewards)
    i = 0
    while True:
        i += 1
    print(f"Policy was evaluated in {i} steps with resulting v {v}")
    return v, i

예제 #4

파일 보기

def run_value_iteration(transition_probabilities=np.ones((5, 2)) * 0.5,
                        rewards=[1, 0, 0, 0, 10],
                        horizon=10):
    env = MarsRover(transition_probabilities, rewards, horizon)
    done = False
    state = env.reset()
    i = 0
    while not done:
        i += 1
        print(f"This is step {i}")
        new_state, reward, done = env.step(action)

    final_reward = evaluate_agent(v, env)

    print(
        f"Your agent achieved a final accumulated reward of {final_reward} after {i} update steps."
    )

    return v, i, final_reward