Python generate_reward_and_next_state 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: race_track_fun

메소드/함수: generate_reward_and_next_state

hotexamples.com에서의 예제들: 4

Python generate_reward_and_next_state - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 race_track_fun.generate_reward_and_next_state에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: race_track_sarsa_lambda.py 프로젝트: KDmike123/Reinforcement-Learning-An-introduction

def run(k):
    row, col, vv, vh = (3, k, 0, 0)
    seen = []
    step = 0
    while True:
        step += 1
        if step > 1000:
            break
        action = policy[row, col, vv, vh]
        seen.append((row, col))
        # print row, col, vv, vh
        r, row, col, vv, vh = generate_reward_and_next_state(row, col, vv, vh, action, race_track)
        if r == 0:
            break
    return seen

예제 #2

파일 보기

def run(k):
    row, col, vv, vh = (3, k, 0, 0)
    seen = []
    step = 0
    while True:
        step += 1
        if step > 1000:
            break
        action = policy[row, col, vv, vh]
        seen.append((row, col))
        # print row, col, vv, vh
        r, row, col, vv, vh = generate_reward_and_next_state(
            row, col, vv, vh, action, race_track)
        if r == 0:
            break
    return seen

예제 #3

파일 보기

파일: race_track_Qlearning.py 프로젝트: KDmike123/Reinforcement-Learning-An-introduction

        seen.append((row, col))
        # print row, col, vv, vh
        r, row, col, vv, vh = generate_reward_and_next_state(row, col, vv, vh, action, race_track)
        if r == 0:
            seen.append((row, col))
            break
    return seen

start = time.time()

eps = 0.1
for k in xrange(100000):
    row, col, vv, vh = generate_start_state()
    while True:
        action = generate_action(policy[row, col, vv, vh], eps)
        reward, new_row, new_col, new_vv, new_vh = generate_reward_and_next_state(row, col, vv, vh, action, race_track)
        Q[row, col, vv, vh, action] += alpha*(reward+gamma*np.amax(Q[new_row, new_col, new_vv, new_vh, :])-Q[row, col, vv, vh, action])
        policy[row, col, vv, vh] = np.argmax(Q[row, col, vv, vh, :])
        row, col, vv, vh = new_row, new_col, new_vv, new_vh
        if game_over(row, col, race_track):
            break

print time.time()-start

for k in xrange(6, 12):
    race_track = track()
    been = run(k)
    for state in been:
        race_track[state] = 5
    plt.figure()
    plt.imshow(np.flipud(race_track), interpolation='none')

예제 #4

파일 보기

        r, row, col, vv, vh = generate_reward_and_next_state(
            row, col, vv, vh, action, race_track)
        if r == 0:
            break
    return seen


start = time.time()

eps = 0.1
for k in xrange(1000):
    E = np.zeros((height, width, n_vv, n_vh, actions))
    row, col, vv, vh = generate_start_state()
    action = generate_action(policy[row, col, vv, vh], eps)
    while True:
        reward, new_row, new_col, new_vv, new_vh = generate_reward_and_next_state(
            row, col, vv, vh, action, race_track)
        new_action = generate_action(policy[new_row, new_col, new_vv, new_vh],
                                     eps)
        delta = reward + gamma * Q[new_row, new_col, new_vv, new_vh,
                                   new_action] - Q[row, col, vv, vh, action]
        E[row, col, vv, vh,
          action] = (1 - alpha) * E[row, col, vv, vh, action] + 1
        Q = Q + alpha * delta * E
        E = E * alpha * lamb
        policy = np.argmax(Q, axis=4)
        row, col, vv, vh, action = new_row, new_col, new_vv, new_vh, new_action
        if game_over(row, col, race_track):
            break

print time.time() - start