def test_code_switching(self): dictdir = os.path.join(RESOURCES_PATH, "vocab") vocabfra = os.path.join(dictdir, "fra.vocab") vocabcmn = os.path.join(dictdir, "cmn.vocab") wds = WordsList(vocabfra) wds.load_from_ascii( vocabcmn ) self.assertEquals( wds.get_size(), 458002)
def test_code_switching(self): dictdir = os.path.join(RESOURCES_PATH, "vocab") vocabfra = os.path.join(dictdir, "fra.vocab") vocabcmn = os.path.join(dictdir, "cmn.vocab") wds = WordsList(vocabfra) wds.load_from_ascii( vocabcmn ) self.assertEquals( wds.get_size(), 434333) self.tok.set_vocab( wds ) splitswitch = self.tok.tokenize(u'et il m\'a dit : "《干脆就把那部蒙人的闲法给废了拉倒!》RT @laoshipukong : 27日"') self.assertEqual(splitswitch, u"et il m' a dit 干脆 就 把 那 部 蒙 人 的 闲 法 给 废 了 拉倒 rt @ laoshipukong 二十七 日")