Python evaluate_mrp_result示例

编程语言: Python

命名空间/包名称: rl.dynamic_programming

方法/功能: evaluate_mrp_result

hotexamples.com的示例: 3

Python evaluate_mrp_result - 已找到3个示例。这些是从开源项目中提取的最受好评的rl.dynamic_programming.evaluate_mrp_result现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： test_dynamic_programming.py 项目： shenoy1/RL-book

    def test_evaluate_mrp(self):
        v = evaluate_mrp_result(self.finite_flip_flop, gamma=0.99)

        self.assertEqual(len(v), 2)

        for s in v:
            self.assertLess(abs(v[s] - 170), 0.1)

示例#2

显示文件

文件： test_dynamic_programming.py 项目： zarfer007/RL-book

    def test_compare_to_backward_induction(self):
        finite_horizon = finite_horizon_MRP(self.finite_flip_flop, 10)

        v = evaluate_mrp_result(finite_horizon, gamma=1)
        self.assertEqual(len(v), 20)

        finite_v =\
            list(evaluate(unwrap_finite_horizon_MRP(finite_horizon), gamma=1))

        for time in range(0, 10):
            self.assertAlmostEqual(v[WithTime(state=True, time=time)],
                                   finite_v[time][True])
            self.assertAlmostEqual(v[WithTime(state=False, time=time)],
                                   finite_v[time][False])

示例#3

显示文件

文件： frog_escape.py 项目： thowell/RL-book

    print("---------------")
    implied_mrp.display_reward_function()
    print()

    print("Implied MRP Value Function")
    print("--------------")
    implied_mrp.display_value_function(gamma=user_gamma)
    print()

    from rl.dynamic_programming import evaluate_mrp_result
    from rl.dynamic_programming import policy_iteration_result
    from rl.dynamic_programming import value_iteration_result

    print("Implied MRP Policy Evaluation Value Function")
    print("--------------")
    pprint(evaluate_mrp_result(implied_mrp, gamma=user_gamma))
    print()

    print("MDP Policy Iteration Optimal Value Function and Optimal Policy")
    print("--------------")
    opt_vf_pi, opt_policy_pi = policy_iteration_result(fe_mdp,
                                                       gamma=user_gamma)
    pprint(opt_vf_pi)
    print(opt_policy_pi)
    print()

    print("MDP Value Iteration Optimal Value Function and Optimal Policy")
    print("--------------")
    opt_vf_vi, opt_policy_vi = value_iteration_result(fe_mdp, gamma=user_gamma)
    pprint(opt_vf_vi)
    print(opt_policy_vi)