def test_tag_blob_pattern_tok_include_punc(self): blob = TextBlob(self.text, tokenizer=PatternTokenizer(), pos_tagger=PatternTagger(include_punc=True)) tags = blob.tags logging.debug("tags: {0}".format(tags)) words = ["Das", "ist", "ein", "schönes", "Auto", "."] for i, word_tag in enumerate(tags): assert_equal(word_tag[0], words[i])
class TestPatternTokenizer(unittest.TestCase): def setUp(self): self.tokenizer = PatternTokenizer() self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \ "Geburtstag." self.snt1 = "Heute ist der 3 ." def tearDown(self): pass def test_tokenize(self): assert_equal(self.tokenizer.tokenize(self.text), [ 'Heute', 'ist', 'der', '3', '.', 'Mai', '2014', 'und', 'Dr.', 'Meier', 'feiert', 'seinen', '43', '.', 'Geburtstag', '.' ]) def test_exclude_punc(self): assert_equal(self.tokenizer.tokenize(self.text, include_punc=False), [ 'Heute', 'ist', 'der', '3', 'Mai', '2014', 'und', 'Dr', 'Meier', 'feiert', 'seinen', '43', 'Geburtstag' ]) def test_tokenize_nested(self): assert_equal(self.tokenizer.tokenize(self.text, nested=True), [[ 'Heute', 'ist', 'der', '3', '.' ], [ 'Mai', '2014', 'und', 'Dr.', 'Meier', 'feiert', 'seinen', '43', '.' ], ['Geburtstag', '.']]) def test_itokenize(self): gen = self.tokenizer.itokenize(self.text) assert_true(is_generator(gen)) assert_equal(next(gen), 'Heute') assert_equal(next(gen), 'ist') def test_sent_tokenize(self): sents = self.tokenizer.sent_tokenize(self.text) assert_equal(sents, [ 'Heute ist der 3 .', 'Mai 2014 und Dr. Meier feiert seinen 43 .', 'Geburtstag .' ]) def test_word_tokenize(self): tokens = self.tokenizer.word_tokenize(self.snt1) assert_equal(tokens, ['Heute', 'ist', 'der', '3', '.'])
def setUp(self): self.tokenizer = PatternTokenizer() self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \ "Geburtstag." self.snt1 = "Heute ist der 3 ."
def test_parse_pattern_tok_show_lemmata(self): parser = PatternParser(tokenizer=PatternTokenizer(), lemmata=True) assert_equal(parser.parse(self.text), self.expected_with_lemmata)
def test_parse_pattern_tok_result_string(self): parser = PatternParser(tokenizer=PatternTokenizer(), lemmata=False) assert_equal(parser.parse(self.text), self.expected)
class TestPatternTokenizer(unittest.TestCase): def setUp(self): self.tokenizer = PatternTokenizer() self.text = "Heute ist der 3. Mai 2014 und Dr. Meier feiert seinen 43. " \ "Geburtstag." self.snt1 = "Heute ist der 3 ." def tearDown(self): pass def test_tokenize(self): assert_equal(self.tokenizer.tokenize(self.text), ['Heute', 'ist', 'der', '3', '.', 'Mai', '2014', 'und', 'Dr.', 'Meier', 'feiert', 'seinen', '43', '.', 'Geburtstag', '.']) def test_exclude_punc(self): assert_equal(self.tokenizer.tokenize(self.text, include_punc=False), ['Heute', 'ist', 'der', '3', 'Mai', '2014', 'und', 'Dr', 'Meier', 'feiert', 'seinen', '43', 'Geburtstag']) def test_tokenize_nested(self): assert_equal(self.tokenizer.tokenize(self.text, nested=True), [['Heute', 'ist', 'der', '3', '.'], ['Mai', '2014', 'und', 'Dr.', 'Meier', 'feiert', 'seinen', '43', '.'], ['Geburtstag', '.']]) def test_itokenize(self): gen = self.tokenizer.itokenize(self.text) assert_true(is_generator(gen)) assert_equal(next(gen), 'Heute') assert_equal(next(gen), 'ist') def test_sent_tokenize(self): sents = self.tokenizer.sent_tokenize(self.text) assert_equal(sents, ['Heute ist der 3 .', 'Mai 2014 und Dr. Meier feiert seinen 43 .', 'Geburtstag .']) def test_word_tokenize(self): tokens = self.tokenizer.word_tokenize(self.snt1) assert_equal(tokens, ['Heute', 'ist', 'der', '3', '.'])
def test_blob_analyze_pattern_tok(self): _analyzer = DeAnalyzer(tokenizer=PatternTokenizer()) pos_blob = TextBlob(self.pos2, analyzer=_analyzer) assert_true(pos_blob.sentiment[0] > 0.0) neg_blob = TextBlob(self.neg2, analyzer=_analyzer) assert_true(neg_blob.sentiment[0] < 0.0)
def test_analyze_pattern_tok(self): _analyzer = DeAnalyzer(tokenizer=PatternTokenizer()) pos_sentiment = _analyzer.analyze(self.pos1) assert_true(pos_sentiment[0] > 0.0) neg_sentiment = _analyzer.analyze(self.neg1) assert_true(neg_sentiment[0] < 0.0)
def test_lemmatize_pattern_tok(self): _lemmatizer = PatternParserLemmatizer(tokenizer=PatternTokenizer()) lemmata = _lemmatizer.lemmatize(self.text) assert_equal(lemmata, self.expected_lemmata)