def test_cut(self): doc_in = u'中文詞彙網路是建立在英語詞彙網路的理論架構之上所建構的計算心理詞庫。' expect = [u'中文', u'詞彙', u'網路', u'是', u'建立', u'在', u'英語', u'詞彙', u'網路', u'的', u'理論', u'架構', u'之上', u'所', u'建構', u'的', u'計算', u'心理', u'詞庫', u'。', u'\n', ] ds = DeepSeg() result = ds.cut(doc_in) self.assertEqual(result, expect)
def test_cut(self): doc_in = u'許多社區長青學苑多開設有書法、插花、土風舞班' expect = [ u'許多', u'社區', u'長青', u'學苑', u'多', u'開設', u'有', u'書法', u'、', u'插花', u'、', u'土風舞班', u'\n', ] ds = DeepSeg() result = ds.cut(doc_in) self.assertEqual(result, expect)
def test_word_segmentation(self): doc_in = [u'許多社區長青學苑多開設有書法、插花、土風舞班'] expect = [ u'許多', u'社區', u'長青', u'學苑', u'多', u'開設', u'有', u'書法', u'、', u'插花', u'、', u'土風舞班', u'\n', ] ds = DeepSeg() result = ds.word_segmentation(doc_in) self.assertEqual(result, expect)
# -*- encoding:utf-8 -*- from deepseg import DeepSeg doc_in = u""" 中文詞彙網路是建立在英語詞彙網路的理論架構之上所建構的計算心理詞庫。 詞彙依其同義行為聚集成「同義詞集」, 而同義詞集在依不同的語義關係彼此連接成為一個複雜的詞彙網路。 """ ds = DeepSeg() deep_seg_list = ds.cut(doc_in) print(" ".join(deep_seg_list))