Python PatternTokenizerの例

プログラミング言語: Python

名前空間/パッケージ名: textblob_de

クラス/型: PatternTokenizer

hotexamples.comのコード掲載数: 10

Python PatternTokenizer - 10件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtextblob_de.PatternTokenizerの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

PatternTokenizer(7)

itokenize(1)

sent_tokenize(1)

tokenize(1)

word_tokenize(1)

コード例 #1

ファイルを表示

ファイル: test_taggers.py プロジェクト: zolekode/textblob-de

 def test_tag_blob_pattern_tok_include_punc(self):
     blob = TextBlob(self.text, tokenizer=PatternTokenizer(),
                     pos_tagger=PatternTagger(include_punc=True))
     tags = blob.tags
     logging.debug("tags: {0}".format(tags))
     words = ["Das", "ist", "ein", "schönes", "Auto", "."]
     for i, word_tag in enumerate(tags):
         assert_equal(word_tag[0], words[i])

コード例 #2

ファイルを表示

class TestPatternTokenizer(unittest.TestCase):
    def setUp(self):
        self.tokenizer = PatternTokenizer()
        self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
            "Geburtstag."
        self.snt1 = "Heute ist der 3 ."

    def tearDown(self):
        pass

    def test_tokenize(self):
        assert_equal(self.tokenizer.tokenize(self.text), [
            'Heute', 'ist', 'der', '3', '.', 'Mai', '2014', 'und', 'Dr.',
            'Meier', 'feiert', 'seinen', '43', '.', 'Geburtstag', '.'
        ])

    def test_exclude_punc(self):
        assert_equal(self.tokenizer.tokenize(self.text, include_punc=False), [
            'Heute', 'ist', 'der', '3', 'Mai', '2014', 'und', 'Dr', 'Meier',
            'feiert', 'seinen', '43', 'Geburtstag'
        ])

    def test_tokenize_nested(self):
        assert_equal(self.tokenizer.tokenize(self.text, nested=True), [[
            'Heute', 'ist', 'der', '3', '.'
        ], [
            'Mai', '2014', 'und', 'Dr.', 'Meier', 'feiert', 'seinen', '43', '.'
        ], ['Geburtstag', '.']])

    def test_itokenize(self):
        gen = self.tokenizer.itokenize(self.text)
        assert_true(is_generator(gen))
        assert_equal(next(gen), 'Heute')
        assert_equal(next(gen), 'ist')

    def test_sent_tokenize(self):
        sents = self.tokenizer.sent_tokenize(self.text)
        assert_equal(sents, [
            'Heute ist der 3 .', 'Mai 2014 und Dr. Meier feiert seinen 43 .',
            'Geburtstag .'
        ])

    def test_word_tokenize(self):
        tokens = self.tokenizer.word_tokenize(self.snt1)
        assert_equal(tokens, ['Heute', 'ist', 'der', '3', '.'])

コード例 #3

ファイルを表示

 def setUp(self):
     self.tokenizer = PatternTokenizer()
     self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
         "Geburtstag."
     self.snt1 = "Heute ist der 3 ."

コード例 #4

ファイルを表示

 def test_parse_pattern_tok_show_lemmata(self):
     parser = PatternParser(tokenizer=PatternTokenizer(), lemmata=True)
     assert_equal(parser.parse(self.text), self.expected_with_lemmata)

コード例 #5

ファイルを表示

 def test_parse_pattern_tok_result_string(self):
     parser = PatternParser(tokenizer=PatternTokenizer(), lemmata=False)
     assert_equal(parser.parse(self.text), self.expected)

コード例 #6

ファイルを表示

ファイル: test_tokenizers.py プロジェクト: DataReply/textblob-de

 def setUp(self):
     self.tokenizer = PatternTokenizer()
     self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
         "Geburtstag."
     self.snt1 = "Heute ist der 3 ."

コード例 #7

ファイルを表示

ファイル: test_tokenizers.py プロジェクト: DataReply/textblob-de

class TestPatternTokenizer(unittest.TestCase):

    def setUp(self):
        self.tokenizer = PatternTokenizer()
        self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
            "Geburtstag."
        self.snt1 = "Heute ist der 3 ."

    def tearDown(self):
        pass

    def test_tokenize(self):
        assert_equal(self.tokenizer.tokenize(self.text),
                     ['Heute',
                      'ist',
                      'der',
                      '3',
                      '.',
                      'Mai',
                      '2014',
                      'und',
                      'Dr.',
                      'Meier',
                      'feiert',
                      'seinen',
                      '43',
                      '.',
                      'Geburtstag',
                      '.'])

    def test_exclude_punc(self):
        assert_equal(self.tokenizer.tokenize(self.text,
                                             include_punc=False),
                     ['Heute',
                      'ist',
                      'der',
                      '3',
                      'Mai',
                      '2014',
                      'und',
                      'Dr',
                      'Meier',
                      'feiert',
                      'seinen',
                      '43',
                      'Geburtstag'])

    def test_tokenize_nested(self):
        assert_equal(self.tokenizer.tokenize(self.text, nested=True),
                     [['Heute', 'ist', 'der', '3', '.'],
                      ['Mai',
                       '2014',
                       'und',
                       'Dr.',
                       'Meier',
                       'feiert',
                       'seinen',
                       '43',
                       '.'],
                      ['Geburtstag', '.']])

    def test_itokenize(self):
        gen = self.tokenizer.itokenize(self.text)
        assert_true(is_generator(gen))
        assert_equal(next(gen), 'Heute')
        assert_equal(next(gen), 'ist')

    def test_sent_tokenize(self):
        sents = self.tokenizer.sent_tokenize(self.text)
        assert_equal(sents, ['Heute ist der 3 .',
                             'Mai 2014 und Dr. Meier feiert seinen 43 .',
                             'Geburtstag .'])

    def test_word_tokenize(self):
        tokens = self.tokenizer.word_tokenize(self.snt1)
        assert_equal(tokens, ['Heute', 'ist', 'der', '3', '.'])

コード例 #8

ファイルを表示

 def test_blob_analyze_pattern_tok(self):
     _analyzer = DeAnalyzer(tokenizer=PatternTokenizer())
     pos_blob = TextBlob(self.pos2, analyzer=_analyzer)
     assert_true(pos_blob.sentiment[0] > 0.0)
     neg_blob = TextBlob(self.neg2, analyzer=_analyzer)
     assert_true(neg_blob.sentiment[0] < 0.0)

コード例 #9

ファイルを表示

 def test_analyze_pattern_tok(self):
     _analyzer = DeAnalyzer(tokenizer=PatternTokenizer())
     pos_sentiment = _analyzer.analyze(self.pos1)
     assert_true(pos_sentiment[0] > 0.0)
     neg_sentiment = _analyzer.analyze(self.neg1)
     assert_true(neg_sentiment[0] < 0.0)

コード例 #10

ファイルを表示

 def test_lemmatize_pattern_tok(self):
     _lemmatizer = PatternParserLemmatizer(tokenizer=PatternTokenizer())
     lemmata = _lemmatizer.lemmatize(self.text)
     assert_equal(lemmata, self.expected_lemmata)