def test_seg_text(): words = genius.seg_text(u"南京市长江大桥\n12、english123pinyin") word = words[0] assert word.text == u'南京市' assert word.offset == 0
import genius text = '卧槽泥马勒戈壁的煞笔东西你像根草' ''' text 第一个参数为需要分词的字。 use_break 代表对分词结构进行打断处理,默认值 True。 use_combine 代表是否使用字典进行词合并,默认值 False。 use_tagging 代表是否进行词性标注,默认值 True。 use_pinyin_segment 代表是否对拼音进行分词处理,默认值 True。 ''' seg_list = genius.seg_text( text, use_combine=True, use_pinyin_segment=True, use_tagging=True, use_break=True ) print(["/".join(i) for i in seg_list])
__author__ = 'chengmin' from Sentiment import * ComputeSentiment("萬科三季報:手握現金315億") #encoding=utf-8 import genius text = u"""昨天,我和施瓦布先生一起与部分企业家进行了交流,大家对中国经济当前、未来发展的态势、走势都十分关心。""" seg_list = genius.seg_text( text, use_combine=True, use_pinyin_segment=True, use_tagging=True, use_break=True ) print('\n'.join(['%s\t%s' % (word.text, word.tagging) for word in seg_list]))