Exemplo n.º 1
0
    def test_code_switching(self):
        dictdir  = os.path.join(RESOURCES_PATH, "vocab")
        vocabfra = os.path.join(dictdir, "fra.vocab")
        vocabcmn = os.path.join(dictdir, "cmn.vocab")

        wds = WordsList(vocabfra)
        wds.load_from_ascii( vocabcmn )
        self.assertEquals( wds.get_size(), 458002)
Exemplo n.º 2
0
    def test_code_switching(self):
        dictdir  = os.path.join(RESOURCES_PATH, "vocab")
        vocabfra = os.path.join(dictdir, "fra.vocab")
        vocabcmn = os.path.join(dictdir, "cmn.vocab")

        wds = WordsList(vocabfra)
        wds.load_from_ascii( vocabcmn )
        self.assertEquals( wds.get_size(), 434333)

        self.tok.set_vocab( wds )
        splitswitch = self.tok.tokenize(u'et il m\'a dit : "《干脆就把那部蒙人的闲法给废了拉倒!》RT @laoshipukong : 27日"')
        self.assertEqual(splitswitch, u"et il m' a dit 干脆 就 把 那 部 蒙 人 的 闲 法 给 废 了 拉倒 rt @ laoshipukong 二十七 日")