def testTokenizer(self): words = text.tokenizer( ["a b c", "a\nb\nc", "a, b - c", u"фыв выф", u"你好 怎么样"]) self.assertEqual( list(words), [["a", "b", "c"], ["a", "b", "c"], ["a", "b", "-", "c"], [u"фыв", u"выф"], [u"你好", u"怎么样"]])
def testTokenizer(self): words = text.tokenizer(["a b c", "a\nb\nc", "a, b - c", u"фыв выф", u"你好 怎么样"]) self.assertEqual(list(words), [["a", "b", "c"], ["a", "b", "c"], ["a", "b", "-", "c"], [u"фыв", u"выф"], [u"你好", u"怎么样"]])