Python Policy.get_state_probabilities示例

编程语言: Python

命名空间/包名称: processes.policy

类/类型: Policy

方法/功能: get_state_probabilities

hotexamples.com的示例: 3

Python Policy.get_state_probabilities - 已找到3个示例。这些是从开源项目中提取的最受好评的processes.policy.Policy.get_state_probabilities现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Policy(16)

get_state_probabilities(3)

get_actions(1)

get_prob(1)

get_state_action_probability(1)

示例#1

显示文件

    def get_mc_path(
        self,
        pol: Policy,
        start_state: S,
        start_action: Optional[A] = None,
    ) -> Sequence[Tuple[S, A, float, bool]]:

        res = []
        next_state = start_state
        steps = 0
        terminate = False
        occ_states = set()
        act_gen_dict = {
            s: get_rv_gen_func_single(pol.get_state_probabilities(s))
            for s in self.mdp_rep.state_action_dict.keys()
        }

        while not terminate:
            state = next_state
            first = state not in occ_states
            occ_states.add(state)
            action = act_gen_dict[state]()\
                if (steps > 0 or start_action is None) else start_action
            next_state, reward =\
                self.mdp_rep.state_reward_gen_dict[state][action]()
            res.append((state, action, reward, first))
            steps += 1
            terminate = steps >= self.max_steps or\
                state in self.mdp_rep.terminal_states
        return res

示例#2

显示文件

文件： td0.py 项目： yogeshankolekar/MDP-DP-RL

    def get_value_func_dict(self, pol: Policy) -> VFType:
        sa_dict = self.mdp_rep.state_action_dict
        vf_dict = {s: 0.0 for s in sa_dict.keys()}
        act_gen_dict = {
            s: get_rv_gen_func_single(pol.get_state_probabilities(s))
            for s in sa_dict.keys()
        }
        episodes = 0

        while episodes < self.num_episodes:
            state = self.mdp_rep.init_state_gen()
            steps = 0
            terminate = False

            while not terminate:
                action = act_gen_dict[state]()
                next_state, reward = \
                    self.mdp_rep.state_reward_gen_dict[state][action]()
                vf_dict[state] += self.alpha * \
                    (reward + self.mdp_rep.gamma * vf_dict[next_state] -
                     vf_dict[state])
                state = next_state
                steps += 1
                terminate = steps >= self.max_steps or \
                    state in self.mdp_rep.terminal_states

            episodes += 1

        return vf_dict

示例#3

显示文件

文件： tdlambda.py 项目： soumyamulgund/MDP-DP-RL

    def get_value_func_dict(self, pol: Policy) -> VFType:
        sa_dict = self.mdp_rep.state_action_dict
        vf_dict = {s: 0. for s in sa_dict.keys()}
        act_gen_dict = {s: get_rv_gen_func_single(pol.get_state_probabilities(s))
                        for s in sa_dict.keys()}
        episodes = 0
        updates = 0

        while episodes < self.num_episodes:
            et_dict = {s: 0. for s in sa_dict.keys()}
            state = self.mdp_rep.init_state_gen()
            steps = 0
            terminate = False

            while not terminate:
                action = act_gen_dict[state]()
                next_state, reward =\
                    self.mdp_rep.state_reward_gen_dict[state][action]()
                delta = reward + self.mdp_rep.gamma * vf_dict[next_state] -\
                    vf_dict[state]
                et_dict[state] += 1
                alpha = self.learning_rate * (updates / self.learning_rate_decay
                                              + 1) ** -0.5
                for s in sa_dict.keys():
                    vf_dict[s] += alpha * delta * et_dict[s]
                    et_dict[s] *= self.gamma_lambda
                updates += 1
                steps += 1
                terminate = steps >= self.max_steps or\
                    state in self.mdp_rep.terminal_states
                state = next_state

            episodes += 1

        return vf_dict