Python PolicyIteration примеры использования

Язык программирования: Python

Пространство имен/Пакет: policy_iter

Класс/Тип: PolicyIteration

Примеров на hotexamples.com: 4

Python PolicyIteration - 4 примера найдено. Это лучшие примеры Python кода для policy_iter.PolicyIteration, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

PolicyIteration(4)

policy_iteration(4)

save_fig(1)

save_result(1)

test_policy(1)

Пример #1

Показать файл

def monte_carlo_demo():
    np.random.seed(101)
    env = SnakeEnv(10, [3, 6])
    agent = ModelFreeAgent(env)
    mc = MonteCarlo(0.5)
    with timer('Timer Monte Carlo Iter'):
        mc.monte_carlo_opt(agent, env)
    print('return_pi={}'.format(eval_game(env, agent)))
    print(agent.pi)

    np.random.seed(101)
    agent2 = TableAgent(env)
    pi_algo = PolicyIteration()
    with timer('Timer PolicyIter'):
        pi_algo.policy_iteration(agent2)
    print('return_pi={}'.format(eval_game(env, agent2)))
    print(agent2.pi)

    np.random.seed(101)
    agent3 = ModelFreeAgent(env)
    mc = SARSA(0.5)
    with timer('Timer Monte Carlo Iter'):
        mc.sarsa(agent3, env)
    print('return_pi={}'.format(eval_game(env, agent3)))
    print(agent3.pi)

Пример #2

Показать файл

Файл: monte_carlo.py Проект: czcnjust/CloudRL

def monte_carlo_demo():
    np.random.seed(0)
    env = SnakeEnv(10, [3, 6])
    agent2 = TableAgent(env)
    pi_algo = PolicyIteration()
    with timer('Timer PolicyIter'):
        pi_algo.policy_iteration(agent2)
    print('PolicyIteration:return_pi={}'.format(eval_game(env, agent2)))
    print(agent2.pi)

    np.random.seed(0)
    env = SnakeEnv(10, [3, 6])
    agent3 = TableAgent(env)
    vi_algo = ValueIteration()
    vi_algo.value_iteration(agent3)
    print('ValueIteration:return_pi={}'.format(eval_game(env, agent3)))
    print(agent3.pi)

    np.random.seed(0)
    env = SnakeEnv(10, [3, 6])
    agent = ModelFreeAgent(env)
    mc = MonteCarlo()
    with timer('Timer Monte Carlo Iter'):
        mc.monte_carlo_opt(agent, env)
    print('MonteCarlo:return_pi={}'.format(eval_game(env, agent)))
    print(agent.pi)

Пример #3

Показать файл

def policy_iter_run(test_episode_num=1_000_000):
    """ Run value iteration algorithm.

    Parameter introduction please refer to 'policy_iter.py'
    """
    model = PolicyIteration(env)
    model.policy_iteration()
    model.test_policy(episode_num=test_episode_num)
    model.save_fig(fig_path)
    model.save_result(log_path)

Пример #4

Показать файл

Файл: monte_carlo.py Проект: zhao942156143/reinforcement-learning

def monte_carlo_demo():
    env = SnakeEnv(10, [3, 6])
    agent = ModelFreeAgent(env)
    mc = MonteCarlo()
    with timer('Timer Monte Carlo Iter'):
        mc.monte_carlo_opt(agent, env)
    print('return_pi={}'.format(eval_game(env, agent)))
    print(agent.pi)

    agent2 = TableAgent(env)
    pi_algo = PolicyIteration()
    with timer('Timer PolicyIter'):
        pi_algo.policy_iteration(agent2)
    print('return_pi={}'.format(eval_game(env, agent2)))
    print(agent2.pi)