Python SARSA.train 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: SARSA

클래스/타입: SARSA

메소드/함수: train

hotexamples.com에서의 예제들: 3

Python SARSA.train - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 SARSA.SARSA.train에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

SARSA(8)

train(3)

end(1)

get_optimal_policy(1)

plot(1)

plot_policy(1)

start(1)

step(1)

예제 #1

파일 보기

def drawForLambdaZero():
    montecarlo = MonteCarlo(100)
    print('Training Monte Carlo')
    montecarlo.train(500000)
    print('Training of Monte Carlo Completed')
    lambdaValue = 0
    learningRate = []
    learningRateIndex = []
    sarsa = SARSA(100, lambdaValue)
    print('Training SARSA and plotting graph')
    for i in range(1000):
        learningRateIndex.append(i)
        sarsa.train(1)
        squareMean = np.sum(np.square(sarsa.Q - montecarlo.Q)) / float(1000)
        learningRate.append(squareMean)

    fig = plt.figure("SARSAZERO")
    surf = plt.plot(learningRateIndex, learningRate)
    fig.savefig('lambdaZero.png')
    plt.show()

예제 #2

파일 보기

def drawForAllLambdas():
    montecarlo = MonteCarlo(100)
    print('Training Monte Carlo')
    montecarlo.train(500000)
    print('Training of Monte Carlo Completed')
    lambdas = [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0]
    squareMean = []
    numberElements = montecarlo.Q.shape[0] * montecarlo.Q.shape[1] * 2
    for lambdaValue in lambdas:
        sarsa = SARSA(100, lambdaValue)
        print('Training SARSA', lambdaValue)
        sarsa.train(1000)
        print('Training of SARSA Completed')
        squareMeanCalc = np.sum(
            np.square(sarsa.Q - montecarlo.Q)) / float(numberElements)
        squareMean.append(squareMeanCalc)
    fig = plt.figure("SARSA")
    surf = plt.plot(lambdas[1:10], squareMean[1:10])
    fig.savefig('lambdaALL.png')
    plt.show()

예제 #3

파일 보기

        "--- optimal policy for Q Learning agent using eligibility trace ---")
    q_agent.get_optimal_policy()
    q_agent.plot_policy()
    print(
        "--- plotting training for Q Learning agent using eligibility trace ---"
    )
    q_agent.plot(episode_steps)

    # Performing SARSA with standard environment
    sarsa_agent = SARSA(episodes=episodes,
                        lr=learning_rate,
                        discount=discount,
                        epsilon=epsilon,
                        king=False)
    print("--- starting training for SARSA agent --- ")
    episode_steps = sarsa_agent.train()
    print("--- optimal policy for SARSA agent ---")
    sarsa_agent.get_optimal_policy()
    sarsa_agent.plot_policy()
    print("--- plotting training for SARSA agent ---")
    sarsa_agent.plot(episode_steps)

    # Performing SARSA with standard environment using eligibility trace
    sarsa_agent = SARSA(episodes=episodes,
                        lr=learning_rate,
                        discount=discount,
                        epsilon=epsilon,
                        king=False,
                        _lambda=0.9)
    print("--- starting training for SARSA agent using eligibility trace --- ")
    episode_steps = sarsa_agent.train()