Пример #1
0
    def cal_doc_distance(self, doc1, doc2):
        """计算长文本与长文本之间的距离

        计算两个长文本的主题分布之间的距离,包括jensen_shannon_divergence和hellinger_distance

        Args:
            doc1: 输入文档1,无需分词
            doc2: 输入文档2,无需分词

        Returns:
            返回一个list对象,其中有两个float元素,第一个表示jensen_shannon_divergence距离,
            第二个表示hellinger_distance距离。例如:
            [0.187232, 0.23431]
        """
        return familia.cal_doc_distance(self._inference_engine,
                                        self._tokenizer, doc1, doc2)
Пример #2
0
    def cal_doc_distance(self, doc1, doc2):
        """计算长文本与长文本之间的距离

        计算两个长文本的主题分布之间的距离,包括jensen_shannon_divergence和hellinger_distance

        Args:
            doc1: 输入文档1分词后的list结果
            doc2: 输入文档2分词后的list结果

        Returns:
            返回一个list对象,其中有两个float元素,第一个表示jensen_shannon_divergence距离,
            第二个表示hellinger_distance距离。例如:
            [0.187232, 0.23431]
        """
        doc1 = ' '.join(doc1)
        doc2 = ' '.join(doc2)
        return familia.cal_doc_distance(self._inference_engine, doc1, doc2)
Пример #3
0
    def cal_doc_distance(self, doc1, doc2):
        """计算长文本与长文本之间的距离

        计算两个长文本的主题分布之间的距离,包括jensen_shannon_divergence和hellinger_distance

        Args:
            doc1: 输入文档1,无需分词
            doc2: 输入文档2,无需分词

        Returns:
            返回一个list对象,其中有两个float元素,第一个表示jensen_shannon_divergence距离,
            第二个表示hellinger_distance距离。例如:
            [0.187232, 0.23431]
        """
        return familia.cal_doc_distance(self._inference_engine,
                                                 self._tokenizer,
                                                 doc1,
                                                 doc2)