Python RLGlue.rl_return 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: rl_glue

클래스/타입: RLGlue

메소드/함수: rl_return

hotexamples.com에서의 예제들: 2

Python RLGlue.rl_return - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 rl_glue.RLGlue.rl_return에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

RLGlue(30)

rl_agent_message(30)

rl_episode(30)

rl_init(30)

rl_start(23)

num_ep_steps(9)

rl_step(9)

num_steps(5)

rl_cleanup(5)

num_episodes(3)

rl_env_message(3)

rl_return(2)

RL_agent_message(1)

RL_cleanup(1)

change_agent(1)

total_reward(1)

예제 #1

파일 보기

                    rl_glue.rl_episode(0)
                else:
                    # Runs an episode while keeping track of visited states
                    state, action = rl_glue.rl_start()
                    state_visits[state] += 1
                    is_terminal = False
                    while not is_terminal:
                        # # stop the program
                        # line = sys.stdin.readline()
                        # print 'line=', line
                        # if line == 'q':
                        #     sys.exit()
                        reward, state, action, is_terminal = rl_glue.rl_step()
                        state_visits[state] += 1

                reward_sums.append(rl_glue.rl_return())
                #             last_episode_total_reward = rl_glue.rl_return()
                end_time = time.clock()
                print "The time of ", episode, " episode:", end_time - start_time

            print 'q_table:', rl_glue.agent.q
            all_reward_sums[algorithm].append(reward_sums)
            all_state_visits[algorithm].append(state_visits)

        name = 'results/' + algorithm + '_q_table_r5_e100.npy'
        np.save(name, rl_glue.agent.q)

    # save results
    np.save('results/q_learning_r5_e100.npy', all_reward_sums['Q-learning'])
    np.save('results/expected_sarsa_r5_e100.npy',
            all_reward_sums['Expected Sarsa'])

예제 #2

파일 보기

파일: assignment.py 프로젝트: castorfou/Reinforcement-Learning-specialization

        state_visits = np.zeros(48)
        last_episode_total_reward = 0
        for episode in range(num_episodes):
            if episode < num_episodes - 10:
                # Runs an episode
                rl_glue.rl_episode(10000)
            else:
                # Runs an episode while keeping track of visited states
                state, action = rl_glue.rl_start()
                state_visits[state] += 1
                is_terminal = False
                while not is_terminal:
                    reward, state, action, is_terminal = rl_glue.rl_step()
                    state_visits[state] += 1

            reward_sums.append(rl_glue.rl_return() - last_episode_total_reward)
            last_episode_total_reward = rl_glue.rl_return()

        all_reward_sums[algorithm].append(reward_sums)
        all_state_visits[algorithm].append(state_visits)

# plot results
for algorithm in ["Q-learning", "Expected Sarsa"]:
    plt.plot(np.mean(all_reward_sums[algorithm], axis=0), label=algorithm)
plt.xlabel("Episodes")
plt.ylabel("Sum of\n rewards\n during\n episode", rotation=0, labelpad=40)
plt.xlim(0, 100)
plt.ylim(-30, 0)
plt.legend()
plt.show()