Python Sarsa.train 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: sarsa

클래스/타입: Sarsa

메소드/함수: train

hotexamples.com에서의 예제들: 2

Python Sarsa.train - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 sarsa.Sarsa.train에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Sarsa(16)

on_policy_td_control(2)

train(2)

seed(2)

run(2)

iterate(2)

learn(2)

sarsa(1)

q(1)

learnQ(1)

plot_avg_cost(1)

choose_action(1)

get_actions(1)

eval(1)

estimate(1)

eGreedyAction(1)

update_q(1)

예제 #1

파일 보기

파일: main.py 프로젝트: erdenbatuhan/Mountain-Car

def run_sarsa(start, goal, Xrange, Vrange, plot_data_pid):
    sarsa_plot_data = list()
    sarsa_plot_data.append(plot_data_pid)

    for i in range(1, 9):
        sarsa = Sarsa(start, goal, Xrange, Vrange, n=i)
        sarsa.train(epoch=EPOCH, max_episode_length=MAX_EPISODE_LENGTH)

        sarsa_plot_data.append(sarsa.episodes)

    plot_with_n(sarsa_plot_data)

예제 #2

파일 보기

파일: cartPoleSarsa.py 프로젝트: tunjiomoniwa/Reinforcement-Learning-Implementation

# avg = np.average(np.array(rewards), axis=0)
# std = np.std(np.array(rewards), axis=0)
# maximumEpisodes = avg.shape[0]
# plt.errorbar(np.array([i for i in range(maximumEpisodes)]), avg, std, marker='^', ecolor='g')
# plt.show()

type = "linear"
# best parameter, order 3, e 0.2, alpha 0.5
# best parameter, order 5, e 0.2, alpha 0.5
for e in [0.3]:#, 0.1, 0.01, 0.3, 0.4]:
    for order in [3]: #, 5]:
        for alpha in [0.01]:#, 0.0001, 0.0005, 0.0009, 0.001, 0.005, 0.009, 0.01, 0.05, 0.09, 0.1, 0.5, 0.9]:
            rewards = []
            print("Alpha: ", alpha)
            for t in tqdm(range(trails)):
                # print("Alpha: %s, Trail: %s" %(alpha, t))
                td = Sarsa(gamma, alpha, env, state_space, steps, e, plot=plot, order=order, discount=discount)
                td.train(episodes)
                rewards.append(td.reward)

            avg = np.average(np.array(rewards), axis=0)
            std = np.std(np.array(rewards), axis=0)
            maximumEpisodes = avg.shape[0]
            plt.errorbar(np.array([i for i in range(maximumEpisodes)]), avg, std, marker='^', ecolor='g')
            #name = "Sarsa/figures/%s/cartPole_type_%s_order%s_alpha%s_e%s.jpg" %(type, type,  order, alpha, e)
            name = "Grid_alpha%s_e%s.jpg" % (alpha, e)
            pickle.dump(avg, open(name, "wb"))
            plt.xlabel("Number of episodes")
            plt.ylabel("Total Reward")
            # plt.savefig(name)
            # plt.close()