Esempi in Python per PatternTokenizer

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: textblob_de

Classe/tipologia: PatternTokenizer

Esempi su hotexamples.com: 10

PatternTokenizer in Python: 10 esempi trovati. Questi sono i migliori esempi reali in Python per textblob_de.PatternTokenizer, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

PatternTokenizer(7)

itokenize(1)

sent_tokenize(1)

tokenize(1)

word_tokenize(1)

Esempio n. 1

Mostra file

File: test_taggers.py Progetto: zolekode/textblob-de

 def test_tag_blob_pattern_tok_include_punc(self):
     blob = TextBlob(self.text, tokenizer=PatternTokenizer(),
                     pos_tagger=PatternTagger(include_punc=True))
     tags = blob.tags
     logging.debug("tags: {0}".format(tags))
     words = ["Das", "ist", "ein", "schönes", "Auto", "."]
     for i, word_tag in enumerate(tags):
         assert_equal(word_tag[0], words[i])

Esempio n. 2

Mostra file

class TestPatternTokenizer(unittest.TestCase):
    def setUp(self):
        self.tokenizer = PatternTokenizer()
        self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
            "Geburtstag."
        self.snt1 = "Heute ist der 3 ."

    def tearDown(self):
        pass

    def test_tokenize(self):
        assert_equal(self.tokenizer.tokenize(self.text), [
            'Heute', 'ist', 'der', '3', '.', 'Mai', '2014', 'und', 'Dr.',
            'Meier', 'feiert', 'seinen', '43', '.', 'Geburtstag', '.'
        ])

    def test_exclude_punc(self):
        assert_equal(self.tokenizer.tokenize(self.text, include_punc=False), [
            'Heute', 'ist', 'der', '3', 'Mai', '2014', 'und', 'Dr', 'Meier',
            'feiert', 'seinen', '43', 'Geburtstag'
        ])

    def test_tokenize_nested(self):
        assert_equal(self.tokenizer.tokenize(self.text, nested=True), [[
            'Heute', 'ist', 'der', '3', '.'
        ], [
            'Mai', '2014', 'und', 'Dr.', 'Meier', 'feiert', 'seinen', '43', '.'
        ], ['Geburtstag', '.']])

    def test_itokenize(self):
        gen = self.tokenizer.itokenize(self.text)
        assert_true(is_generator(gen))
        assert_equal(next(gen), 'Heute')
        assert_equal(next(gen), 'ist')

    def test_sent_tokenize(self):
        sents = self.tokenizer.sent_tokenize(self.text)
        assert_equal(sents, [
            'Heute ist der 3 .', 'Mai 2014 und Dr. Meier feiert seinen 43 .',
            'Geburtstag .'
        ])

    def test_word_tokenize(self):
        tokens = self.tokenizer.word_tokenize(self.snt1)
        assert_equal(tokens, ['Heute', 'ist', 'der', '3', '.'])

Esempio n. 3

Mostra file

 def setUp(self):
     self.tokenizer = PatternTokenizer()
     self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
         "Geburtstag."
     self.snt1 = "Heute ist der 3 ."

Esempio n. 4

Mostra file

 def test_parse_pattern_tok_show_lemmata(self):
     parser = PatternParser(tokenizer=PatternTokenizer(), lemmata=True)
     assert_equal(parser.parse(self.text), self.expected_with_lemmata)

Esempio n. 5

Mostra file

 def test_parse_pattern_tok_result_string(self):
     parser = PatternParser(tokenizer=PatternTokenizer(), lemmata=False)
     assert_equal(parser.parse(self.text), self.expected)

Esempio n. 6

Mostra file

File: test_tokenizers.py Progetto: DataReply/textblob-de

 def setUp(self):
     self.tokenizer = PatternTokenizer()
     self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
         "Geburtstag."
     self.snt1 = "Heute ist der 3 ."

Esempio n. 7

Mostra file

File: test_tokenizers.py Progetto: DataReply/textblob-de

class TestPatternTokenizer(unittest.TestCase):

    def setUp(self):
        self.tokenizer = PatternTokenizer()
        self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
            "Geburtstag."
        self.snt1 = "Heute ist der 3 ."

    def tearDown(self):
        pass

    def test_tokenize(self):
        assert_equal(self.tokenizer.tokenize(self.text),
                     ['Heute',
                      'ist',
                      'der',
                      '3',
                      '.',
                      'Mai',
                      '2014',
                      'und',
                      'Dr.',
                      'Meier',
                      'feiert',
                      'seinen',
                      '43',
                      '.',
                      'Geburtstag',
                      '.'])

    def test_exclude_punc(self):
        assert_equal(self.tokenizer.tokenize(self.text,
                                             include_punc=False),
                     ['Heute',
                      'ist',
                      'der',
                      '3',
                      'Mai',
                      '2014',
                      'und',
                      'Dr',
                      'Meier',
                      'feiert',
                      'seinen',
                      '43',
                      'Geburtstag'])

    def test_tokenize_nested(self):
        assert_equal(self.tokenizer.tokenize(self.text, nested=True),
                     [['Heute', 'ist', 'der', '3', '.'],
                      ['Mai',
                       '2014',
                       'und',
                       'Dr.',
                       'Meier',
                       'feiert',
                       'seinen',
                       '43',
                       '.'],
                      ['Geburtstag', '.']])

    def test_itokenize(self):
        gen = self.tokenizer.itokenize(self.text)
        assert_true(is_generator(gen))
        assert_equal(next(gen), 'Heute')
        assert_equal(next(gen), 'ist')

    def test_sent_tokenize(self):
        sents = self.tokenizer.sent_tokenize(self.text)
        assert_equal(sents, ['Heute ist der 3 .',
                             'Mai 2014 und Dr. Meier feiert seinen 43 .',
                             'Geburtstag .'])

    def test_word_tokenize(self):
        tokens = self.tokenizer.word_tokenize(self.snt1)
        assert_equal(tokens, ['Heute', 'ist', 'der', '3', '.'])

Esempio n. 8

Mostra file

 def test_blob_analyze_pattern_tok(self):
     _analyzer = DeAnalyzer(tokenizer=PatternTokenizer())
     pos_blob = TextBlob(self.pos2, analyzer=_analyzer)
     assert_true(pos_blob.sentiment[0] > 0.0)
     neg_blob = TextBlob(self.neg2, analyzer=_analyzer)
     assert_true(neg_blob.sentiment[0] < 0.0)

Esempio n. 9

Mostra file

 def test_analyze_pattern_tok(self):
     _analyzer = DeAnalyzer(tokenizer=PatternTokenizer())
     pos_sentiment = _analyzer.analyze(self.pos1)
     assert_true(pos_sentiment[0] > 0.0)
     neg_sentiment = _analyzer.analyze(self.neg1)
     assert_true(neg_sentiment[0] < 0.0)

Esempio n. 10

Mostra file

 def test_lemmatize_pattern_tok(self):
     _lemmatizer = PatternParserLemmatizer(tokenizer=PatternTokenizer())
     lemmata = _lemmatizer.lemmatize(self.text)
     assert_equal(lemmata, self.expected_lemmata)