def test_extract_entities(self): text = '国際連合は、国際連合憲章の下、1945年に設立された国際組織である' entities = JAParser().extract_entities(text, True) self.assertIn('国際連合', entities)
def test_sent_tokenize_text(self): text = 'これは日本語です。これは私の最高の例です。' self.assertEqual(JAParser().sent_tokenize(text), ['これは日本語です', 'これは私の最高の例です'])
def test_sent_tokenize_text_is_none(self): self.assertEqual(JAParser().sent_tokenize(None), [])
def test_word_tokenize_with_separators(self): text = 'これは日本語です。' self.assertEqual(JAParser().word_tokenize(text, True), ['これ', 'は', '日本語', 'です', '。'])
def test_word_tokenize_text_is_none(self): self.assertEqual(JAParser().word_tokenize(None), None)
def test_singleton(self): self.assertEqual(JAParser(), JAParser()) self.assertEqual(JAParser().mecab, JAParser().mecab)