Python plot_rewards 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: learning_utils

메소드/함수: plot_rewards

hotexamples.com에서의 예제들: 6

Python plot_rewards - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 learning_utils.plot_rewards에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: simulate.py 프로젝트: wulfebw/reinforcement_learning

def run():
    mdp = mdps.MazeMDP(room_size=5, num_rooms=5)
    print 'online RL algorithm: '
    total_rewards, V = simulate_online_RL_algorithm(mdp)
    mdp.print_v(V)
    learning_utils.plot_rewards(total_rewards)
    print 'DP algorithm: '
    simulate_MDP_algorithm(mdp)

예제 #2

파일 보기

def run():
    mdp = mdps.MazeMDP(room_size=5, num_rooms=5)
    print 'online RL algorithm: '
    total_rewards, V = simulate_online_RL_algorithm(mdp)
    mdp.print_v(V)
    learning_utils.plot_rewards(total_rewards)
    print 'DP algorithm: '
    simulate_MDP_algorithm(mdp)

예제 #3

파일 보기

파일: simulate.py 프로젝트: wulfebw/reinforcement_learning

def run_keras_nnet():
    mdp = mdps.MazeMDP(room_size=5, num_rooms=2)
    num_episodes = 200
    total_rewards, total_steps, trajectory, V = simulate_keras_online_RL_algorithm(mdp=mdp, num_episodes=num_episodes, max_iterations=100)
    print 'average_reward: {}'.format(np.mean(total_rewards[num_episodes / 2:]))
    print 'average_steps: {}'.format(np.mean(total_steps[num_episodes / 2]))
    learning_utils.plot_rewards(total_rewards)
    learning_utils.plot_rewards(total_steps)
    print trajectory
    mdp.print_trajectory(trajectory)
    print V
    mdp.print_v(V)

예제 #4

파일 보기

def run_keras_nnet():
    mdp = mdps.MazeMDP(room_size=5, num_rooms=2)
    num_episodes = 200
    total_rewards, total_steps, trajectory, V = simulate_keras_online_RL_algorithm(
        mdp=mdp, num_episodes=num_episodes, max_iterations=100)
    print 'average_reward: {}'.format(np.mean(total_rewards[num_episodes /
                                                            2:]))
    print 'average_steps: {}'.format(np.mean(total_steps[num_episodes / 2]))
    learning_utils.plot_rewards(total_rewards)
    learning_utils.plot_rewards(total_steps)
    print trajectory
    mdp.print_trajectory(trajectory)
    print V
    mdp.print_v(V)

예제 #5

파일 보기

파일: simulate.py 프로젝트: wulfebw/reinforcement_learning

def run_nnet():
    mdp = mdps.MazeMDP(room_size=5, num_rooms=2)
    total_rewards, total_losses = simulate_symbolic_online_RL_algorithm(mdp=mdp, num_episodes=700, max_iterations=100)
    learning_utils.plot_rewards(total_rewards)
    learning_utils.plot_rewards(total_losses)

예제 #6

파일 보기

def run_nnet():
    mdp = mdps.MazeMDP(room_size=5, num_rooms=2)
    total_rewards, total_losses = simulate_symbolic_online_RL_algorithm(
        mdp=mdp, num_episodes=700, max_iterations=100)
    learning_utils.plot_rewards(total_rewards)
    learning_utils.plot_rewards(total_losses)