Python sent_tokenizeの例

プログラミング言語: Python

名前空間/パッケージ名: app.summarizer.stringUtils

メソッド/関数: sent_tokenize

hotexamples.comのコード掲載数: 6

Python sent_tokenize - 6件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのapp.summarizer.stringUtils.sent_tokenizeの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: keywordsTool.py プロジェクト: eddidu/text-shorty

    def extract(self, document):
        """Return keywords"""
        # tokenize text
        sentences = stringUtils.sent_tokenize(document)
        tokens = [stringUtils.word_tokenize(s) for s in sentences]

        #TODO: need to pos tag words for picking only nouns
        #TODO: need to stem tokens for improving accuracy
        ratings = self.compute_ratings(tokens)
        result = self.pick_keywords(ratings, 5)

        return tuple(result)

コード例 #2

ファイルを表示

ファイル: summaryTool.py プロジェクト: eddidu/text-shorty

    def summarize(self, document, summaryLength):
        """Return a list of sentences"""
        # tokenize text
        sentences = stringUtils.sent_tokenize(document)
        tokens = [stringUtils.word_tokenize(s, stem=True) for s in sentences]

        cosine_matrix = self.compute_cosine(tokens, self._treshold)
        normalized_cosine_matrix = self.normalize_matrix(cosine_matrix)
        ratings = self.compute_ratings(normalized_cosine_matrix, self._epsilon)

        result = self.pick_best_sentences(sentences, ratings, summaryLength)

        return tuple(result)

コード例 #3

ファイルを表示

ファイル: test_stringUtils.py プロジェクト: eddidu/text-shorty

    def test_sent_tokenize(self):
        """Does it successfully tokenize sentences?"""
        input_text = (
            "A first line.\n"
            "Next line."
        )

        expected = (
            "A first line.",
            "Next line."
        )

        result = stringUtils.sent_tokenize(input_text)

        self.assertTupleEqual(expected, result)

コード例 #4

ファイルを表示

ファイル: test_stringUtils.py プロジェクト: eddidu/text-shorty

    def test_sent_tokenize_string_with_single_quotation_marks(self):
        """Does it successfully tokenize sentence containing ‘ and ’ ?"""        
        input_text = (
            """A first line.
            I’ve next line here."""
        )

        expected = (
            "A first line.",
            "I've next line here."
        )

        result = stringUtils.sent_tokenize(input_text)

        self.assertTupleEqual(expected, result)

コード例 #5

ファイルを表示

ファイル: test_stringUtils.py プロジェクト: eddidu/text-shorty

    def test_sent_tokenize_string_with_double_qutation_marks(self):
        """Does it successfully tokenize sentences containing “ and ” ?"""    
        input_text = (
            "A first line.\n"
            "Next line is, "
            "“inside non ascii double quotes.”"
        )

        expected = (
            "A first line.",
            "Next line is, \"inside non ascii double quotes.\""
        )

        result = stringUtils.sent_tokenize(input_text)

        self.assertTupleEqual(expected, result)

コード例 #6

ファイルを表示

ファイル: test_stringUtils.py プロジェクト: eddidu/text-shorty

    def test_sent_tokenize_string_with_tabs(self):
        """Does it successfully tokenize sentences containing tabs?"""        
        input_text = (
            "A first \t\tline. \t\t\n"
            "\t\t\n"
            "Next line."
        )

        expected = (
            "A first line.",
            "Next line."
        )

        result = stringUtils.sent_tokenize(input_text)

        self.assertTupleEqual(expected, result)