Python get_epsilon_action_probsの例

プログラミング言語: Python

名前空間/パッケージ名: processes.mp_funcs

メソッド/関数: get_epsilon_action_probs

hotexamples.comのコード掲載数: 5

Python get_epsilon_action_probs - 5件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのprocesses.mp_funcs.get_epsilon_action_probsの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: helper_funcs.py プロジェクト: zhongyunuestc/MDP-DP-RL

 def sp_func(s: S,
             qf=qf,
             state_action_func=state_action_func,
             softmax=softmax,
             epsilon=epsilon) -> Mapping[A, float]:
     av_dict = {a: qf((s, a)) for a in state_action_func(s)}
     return get_softmax_action_probs(av_dict) if softmax else\
         get_epsilon_action_probs(av_dict, epsilon)

コード例 #2

ファイルを表示

ファイル: policy.py プロジェクト: yogeshankolekar/MDP-DP-RL

 def edit_state_action_to_epsilon_greedy(
     self,
     state: S,
     action_value_dict: Mapping[A, float],
     epsilon: float
 ) -> None:
     self.policy_data[state] = get_epsilon_action_probs(
         action_value_dict,
         epsilon
     )

コード例 #3

ファイルを表示

ファイル: helper_funcs.py プロジェクト: zhongyunuestc/MDP-DP-RL

def get_soft_policy_from_qf_dict(qf_dict: SAf, softmax: bool,
                                 epsilon: float) -> Policy:
    if softmax:
        ret = Policy(
            {s: get_softmax_action_probs(v)
             for s, v in qf_dict.items()})
    else:
        ret = Policy({
            s: get_epsilon_action_probs(v, epsilon)
            for s, v in qf_dict.items()
        })
    return ret

コード例 #4

ファイルを表示

def get_epsilon_policy_from_qf(qf_dict: Mapping[S, Mapping[A, float]],
                               epsilon: float) -> Policy:
    return Policy(
        {s: get_epsilon_action_probs(v, epsilon)
         for s, v in qf_dict.items()})

コード例 #5

ファイルを表示

ファイル: helper_funcs.py プロジェクト: saurabhdhupar/MDP-DP-RL

 def sp_func(s: S, softmax=softmax, epsilon=epsilon) -> Mapping[A, float]:
     av_dict = get_act_value_dict_from_state(s)
     return get_softmax_action_probs(av_dict) if softmax else\
         get_epsilon_action_probs(av_dict, epsilon)