示例#1
0
def test_seg_text():
    words = genius.seg_text(u"南京市长江大桥\n12、english123pinyin")
    word = words[0]
    assert word.text == u'南京市'
    assert word.offset == 0
示例#2
0
import genius
text = '卧槽泥马勒戈壁的煞笔东西你像根草'
'''
text 第一个参数为需要分词的字。
use_break 代表对分词结构进行打断处理,默认值 True。
use_combine 代表是否使用字典进行词合并,默认值 False。
use_tagging 代表是否进行词性标注,默认值 True。
use_pinyin_segment 代表是否对拼音进行分词处理,默认值 True。
'''
seg_list = genius.seg_text(
    text,
    use_combine=True,
    use_pinyin_segment=True,
    use_tagging=True,
    use_break=True
)

print(["/".join(i) for i in seg_list])
示例#3
0
__author__ = 'chengmin'
from Sentiment import *
ComputeSentiment("萬科三季報:手握現金315億")

#encoding=utf-8
import genius
text = u"""昨天,我和施瓦布先生一起与部分企业家进行了交流,大家对中国经济当前、未来发展的态势、走势都十分关心。"""
seg_list = genius.seg_text(
    text,
    use_combine=True,
    use_pinyin_segment=True,
    use_tagging=True,
    use_break=True
)
print('\n'.join(['%s\t%s' % (word.text, word.tagging) for word in seg_list]))
示例#4
0
def test_seg_text():
    words = genius.seg_text(u"南京市长江大桥\n12、english123pinyin")
    word = words[0]
    assert word.text == u'南京市'
    assert word.offset == 0