Esempio n. 1
0
 def test_tag_blob_pattern_tok_include_punc(self):
     blob = TextBlob(self.text, tokenizer=PatternTokenizer(),
                     pos_tagger=PatternTagger(include_punc=True))
     tags = blob.tags
     logging.debug("tags: {0}".format(tags))
     words = ["Das", "ist", "ein", "schönes", "Auto", "."]
     for i, word_tag in enumerate(tags):
         assert_equal(word_tag[0], words[i])
Esempio n. 2
0
class TestPatternTokenizer(unittest.TestCase):
    def setUp(self):
        self.tokenizer = PatternTokenizer()
        self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
            "Geburtstag."
        self.snt1 = "Heute ist der 3 ."

    def tearDown(self):
        pass

    def test_tokenize(self):
        assert_equal(self.tokenizer.tokenize(self.text), [
            'Heute', 'ist', 'der', '3', '.', 'Mai', '2014', 'und', 'Dr.',
            'Meier', 'feiert', 'seinen', '43', '.', 'Geburtstag', '.'
        ])

    def test_exclude_punc(self):
        assert_equal(self.tokenizer.tokenize(self.text, include_punc=False), [
            'Heute', 'ist', 'der', '3', 'Mai', '2014', 'und', 'Dr', 'Meier',
            'feiert', 'seinen', '43', 'Geburtstag'
        ])

    def test_tokenize_nested(self):
        assert_equal(self.tokenizer.tokenize(self.text, nested=True), [[
            'Heute', 'ist', 'der', '3', '.'
        ], [
            'Mai', '2014', 'und', 'Dr.', 'Meier', 'feiert', 'seinen', '43', '.'
        ], ['Geburtstag', '.']])

    def test_itokenize(self):
        gen = self.tokenizer.itokenize(self.text)
        assert_true(is_generator(gen))
        assert_equal(next(gen), 'Heute')
        assert_equal(next(gen), 'ist')

    def test_sent_tokenize(self):
        sents = self.tokenizer.sent_tokenize(self.text)
        assert_equal(sents, [
            'Heute ist der 3 .', 'Mai 2014 und Dr. Meier feiert seinen 43 .',
            'Geburtstag .'
        ])

    def test_word_tokenize(self):
        tokens = self.tokenizer.word_tokenize(self.snt1)
        assert_equal(tokens, ['Heute', 'ist', 'der', '3', '.'])
Esempio n. 3
0
 def setUp(self):
     self.tokenizer = PatternTokenizer()
     self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
         "Geburtstag."
     self.snt1 = "Heute ist der 3 ."
Esempio n. 4
0
 def test_parse_pattern_tok_show_lemmata(self):
     parser = PatternParser(tokenizer=PatternTokenizer(), lemmata=True)
     assert_equal(parser.parse(self.text), self.expected_with_lemmata)
Esempio n. 5
0
 def test_parse_pattern_tok_result_string(self):
     parser = PatternParser(tokenizer=PatternTokenizer(), lemmata=False)
     assert_equal(parser.parse(self.text), self.expected)
Esempio n. 6
0
 def setUp(self):
     self.tokenizer = PatternTokenizer()
     self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
         "Geburtstag."
     self.snt1 = "Heute ist der 3 ."
Esempio n. 7
0
class TestPatternTokenizer(unittest.TestCase):

    def setUp(self):
        self.tokenizer = PatternTokenizer()
        self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \
            "Geburtstag."
        self.snt1 = "Heute ist der 3 ."

    def tearDown(self):
        pass

    def test_tokenize(self):
        assert_equal(self.tokenizer.tokenize(self.text),
                     ['Heute',
                      'ist',
                      'der',
                      '3',
                      '.',
                      'Mai',
                      '2014',
                      'und',
                      'Dr.',
                      'Meier',
                      'feiert',
                      'seinen',
                      '43',
                      '.',
                      'Geburtstag',
                      '.'])

    def test_exclude_punc(self):
        assert_equal(self.tokenizer.tokenize(self.text,
                                             include_punc=False),
                     ['Heute',
                      'ist',
                      'der',
                      '3',
                      'Mai',
                      '2014',
                      'und',
                      'Dr',
                      'Meier',
                      'feiert',
                      'seinen',
                      '43',
                      'Geburtstag'])

    def test_tokenize_nested(self):
        assert_equal(self.tokenizer.tokenize(self.text, nested=True),
                     [['Heute', 'ist', 'der', '3', '.'],
                      ['Mai',
                       '2014',
                       'und',
                       'Dr.',
                       'Meier',
                       'feiert',
                       'seinen',
                       '43',
                       '.'],
                      ['Geburtstag', '.']])

    def test_itokenize(self):
        gen = self.tokenizer.itokenize(self.text)
        assert_true(is_generator(gen))
        assert_equal(next(gen), 'Heute')
        assert_equal(next(gen), 'ist')

    def test_sent_tokenize(self):
        sents = self.tokenizer.sent_tokenize(self.text)
        assert_equal(sents, ['Heute ist der 3 .',
                             'Mai 2014 und Dr. Meier feiert seinen 43 .',
                             'Geburtstag .'])

    def test_word_tokenize(self):
        tokens = self.tokenizer.word_tokenize(self.snt1)
        assert_equal(tokens, ['Heute', 'ist', 'der', '3', '.'])
Esempio n. 8
0
 def test_blob_analyze_pattern_tok(self):
     _analyzer = DeAnalyzer(tokenizer=PatternTokenizer())
     pos_blob = TextBlob(self.pos2, analyzer=_analyzer)
     assert_true(pos_blob.sentiment[0] > 0.0)
     neg_blob = TextBlob(self.neg2, analyzer=_analyzer)
     assert_true(neg_blob.sentiment[0] < 0.0)
Esempio n. 9
0
 def test_analyze_pattern_tok(self):
     _analyzer = DeAnalyzer(tokenizer=PatternTokenizer())
     pos_sentiment = _analyzer.analyze(self.pos1)
     assert_true(pos_sentiment[0] > 0.0)
     neg_sentiment = _analyzer.analyze(self.neg1)
     assert_true(neg_sentiment[0] < 0.0)
Esempio n. 10
0
 def test_lemmatize_pattern_tok(self):
     _lemmatizer = PatternParserLemmatizer(tokenizer=PatternTokenizer())
     lemmata = _lemmatizer.lemmatize(self.text)
     assert_equal(lemmata, self.expected_lemmata)