Python PolicyIterationの例

プログラミング言語: Python

名前空間/パッケージ名: funzo.planners

クラス/型: PolicyIteration

hotexamples.comのコード掲載数: 2

Python PolicyIteration - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのfunzo.planners.PolicyIterationの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

PolicyIteration(2)

solve(2)

コード例 #1

ファイルを表示

ファイル: pw_rl.py プロジェクト: tobywise/funzo

def main():

    with PuddleWorld(start=(0.5, 0.1), resolution=0.05) as world:
        # R = PuddleReward(rmax=1.0, step_reward=0.1)
        R = PuddleRewardLFA(weights=[1, -1], rmax=1.0)
        T = PWTransition()
        g = PuddleWorldMDP(reward=R, transition=T, discount=0.98)

        # ------------------------
        mdp_planner = PolicyIteration()
        res = mdp_planner.solve(g)
        V = res['V']
        print(V)
        print(res['pi'])

    fig = plt.figure(figsize=(8, 8))
    ax = fig.gca()
    ax = world.visualize(ax, policy=res['pi'])
    # plt.savefig('world.svg')

    plt.figure(figsize=(8, 8))
    plt.imshow(V.reshape(world.shape).T,  # interpolation='nearest',
               cmap='viridis', origin='lower',
               vmin=np.min(V), vmax=np.max(V))
    plt.grid(False)
    plt.title('Value function')
    plt.colorbar(orientation='horizontal')
    # plt.savefig('world_value.svg')

    plt.show()

コード例 #2

ファイルを表示

def main():
    NUM_STATES = 10

    with ChainWorld(num_states=NUM_STATES) as world:
        R = ChainReward()
        T = ChainTransition()
        mdp = ChainMDP(R, T, discount=0.98)

        planner = PolicyIteration()
        plan = planner.solve(mdp)

        print(plan['pi'])

    fig = plt.figure(figsize=(12, 3))
    ax = fig.gca()
    ax = world.visualize(ax)
    ax = world.show_policy(ax, policy=plan['pi'])

    plt.figure(figsize=(8, 8))
    plt.plot(plan['V'])
    plt.title('Value function')

    plt.show()