Python ValueIteration.execute_policy示例

编程语言: Python

命名空间/包名称: ValueIteration

类/类型: ValueIteration

方法/功能: execute_policy

hotexamples.com的示例: 1

Python ValueIteration.execute_policy - 已找到1个示例。这些是从开源项目中提取的最受好评的ValueIteration.ValueIteration.execute_policy现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

ValueIteration(9)

valueIteration(4)

getQValues(2)

trial_run(2)

execute_policy(1)

getPolicy(1)

get_val(1)

iterate(1)

run(1)

runValueIteration(1)

set_utils(1)

solve(1)

trace_path(1)

value_iteration(1)

示例#1

显示文件

文件： Experiments_ValueIteration.py 项目： shaoguangji/CS449

def experiment(test_game, num_experiments):
    """
    Main experiment method that runs the Value Iteration experiments and prints results
    works by learning a model x number of times.

    the average number of moves per policy is then created and averaged per experiment

    prints and returns the average number of episodes to reach the goal along with the learned policy.
    """

    average_number_of_moves_with_policy = []
    for x in range(num_experiments):
        # Learn Policy
        vi = ValueIteration(test_game)
        policy_and_num_iterations = vi.value_iteration()
        policy = policy_and_num_iterations[0]
        print(policy)

        avg_num_steps = 0
        for itter in range(100):
            num_steps = vi.execute_policy(policy)
            avg_num_steps += num_steps

        avg_num_steps /= 100.0

        average_number_of_moves_with_policy.append(avg_num_steps)

    total_average_num_steps = sum(average_number_of_moves_with_policy) / num_experiments
    print("Total Average Number of Steps: {}".format(total_average_num_steps))

    return total_average_num_steps