Python mdp_rep_to_mrp_rep2の例

プログラミング言語: Python

名前空間/パッケージ名: processes.mp_funcs

メソッド/関数: mdp_rep_to_mrp_rep2

hotexamples.comのコード掲載数: 2

Python mdp_rep_to_mrp_rep2 - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのprocesses.mp_funcs.mdp_rep_to_mrp_rep2の実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: dp_numeric.py プロジェクト: DanialTaheri/RobustValueIteration

 def get_value_func_dict(self, pol: Policy) -> VFDictType:
     vf = {s: 0. for s in self.mdp_obj.all_states}
     epsilon = self.tol * 1e4
     mo = self.mdp_obj
     pd = pol.policy_data
     rew = mdp_rep_to_mrp_rep2(mo.rewards, pd)
     prob = mdp_rep_to_mrp_rep1(mo.transitions, pd)
     while epsilon >= self.tol:
         new_vf = {s: rew[s] + mo.gamma * sum(p * vf[s1]
                                              for s1, p in prob[s].items())
                   for s in mo.all_states}
         
         epsilon = max(abs(new_vf[s] - v) for s, v in vf.items())
         vf = new_vf
     return vf

コード例 #2

ファイルを表示

 def get_mrp(self, pol: Policy) -> MRP:
     tr = mdp_rep_to_mrp_rep1(self.transitions, pol.policy_data)
     rew = mdp_rep_to_mrp_rep2(self.rewards, pol.policy_data)
     return MRP({s: (v, rew[s]) for s, v in tr.items()}, self.gamma)