Python _postprocess_dqnの例

プログラミング言語: Python

名前空間/パッケージ名: ray.rllib.agents.dqn.dqn_policy_graph

メソッド/関数: _postprocess_dqn

hotexamples.comのコード掲載数: 4

Python _postprocess_dqn - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのray.rllib.agents.dqn.dqn_policy_graph._postprocess_dqnの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: ddpg_policy_graph.py プロジェクト: robertnishihara/ray

    def postprocess_trajectory(self,
                               sample_batch,
                               other_agent_batches=None,
                               episode=None):
        if self.config["parameter_noise"]:
            # adjust the sigma of parameter space noise
            states, noisy_actions = [
                list(x) for x in sample_batch.columns(["obs", "actions"])
            ]
            self.sess.run(self.remove_noise_op)
            clean_actions = self.sess.run(
                self.output_actions,
                feed_dict={
                    self.cur_observations: states,
                    self.stochastic: False,
                    self.eps: .0
                })
            distance_in_action_space = np.sqrt(
                np.mean(np.square(clean_actions - noisy_actions)))
            self.pi_distance = distance_in_action_space
            if distance_in_action_space < self.config["exploration_sigma"]:
                self.parameter_noise_sigma_val *= 1.01
            else:
                self.parameter_noise_sigma_val /= 1.01
            self.parameter_noise_sigma.load(
                self.parameter_noise_sigma_val, session=self.sess)

        return _postprocess_dqn(self, sample_batch)

コード例 #2

ファイルを表示

ファイル: ddpg_policy_graph.py プロジェクト: mwufi/ray

    def postprocess_trajectory(self,
                               sample_batch,
                               other_agent_batches=None,
                               episode=None):
        if self.config["parameter_noise"]:
            # adjust the sigma of parameter space noise
            states, noisy_actions = [
                list(x) for x in sample_batch.columns(["obs", "actions"])
            ]
            self.sess.run(self.remove_noise_op)
            clean_actions = self.sess.run(self.output_actions,
                                          feed_dict={
                                              self.cur_observations: states,
                                              self.stochastic: False,
                                              self.eps: .0
                                          })
            distance_in_action_space = np.sqrt(
                np.mean(np.square(clean_actions - noisy_actions)))
            self.pi_distance = distance_in_action_space
            if distance_in_action_space < self.config["exploration_sigma"]:
                self.parameter_noise_sigma_val *= 1.01
            else:
                self.parameter_noise_sigma_val /= 1.01
            self.parameter_noise_sigma.load(self.parameter_noise_sigma_val,
                                            session=self.sess)

        return _postprocess_dqn(self, sample_batch)

コード例 #3

ファイルを表示

ファイル: ddpg_policy_graph.py プロジェクト: yunxinan/ray

 def postprocess_trajectory(self, sample_batch, other_agent_batches=None):
     return _postprocess_dqn(self, sample_batch)

コード例 #4

ファイルを表示

ファイル: ddpg_policy_graph.py プロジェクト: jamescasbon/ray

 def postprocess_trajectory(self,
                            sample_batch,
                            other_agent_batches=None,
                            episode=None):
     return _postprocess_dqn(self, sample_batch)