Python seg_txt示例

编程语言: Python

命名空间/包名称: mmseg.search

方法/功能: seg_txt

hotexamples.com的示例: 4

Python seg_txt - 已找到4个示例。这些是从开源项目中提取的最受好评的mmseg.search.seg_txt现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： segment.py 项目： stringtang/diggit

def seg_txt_search(txt):
    result = []
    for word in seg_txt(txt):
        if word.isalnum():
            result.append(word.lower())
            continue
        word = word.decode("utf-8", "ignore")
        if len(word) == 1:
            if u"一" <= word <= u"龥" and word not in SMALLCHAR:
                result.append(word)
        else:
            result.append(word)
    result = [i.encode("utf-8", "ignore") if type(i) is unicode else i for i in result]
    return result

示例#2

显示文件

def seg_txt_search(txt):
    result = []
    for word in seg_txt(txt):
        if word.isalnum():
            result.append(word.lower())
            continue
        word = word.decode("utf-8", "ignore")
        if len(word) == 1:
            if u"一" <= word <= u"龥" and word not in SMALLCHAR:
                result.append(word)
        else:
            result.append(word)
    result = [
        i.encode("utf-8", "ignore") if type(i) is unicode else i
        for i in result
    ]
    return result

示例#3

显示文件

文件： segment.py 项目： chu888chu888/Python-Tornado-diggit

def seg_title_search(txt):
    result = []
    for word in seg_txt(txt):
        if word.isalnum(): 
            result.append(word.lower())
            continue
        word = word.decode("utf-8", "ignore")
        if len(word) == 1:
            if u"一" <= word <= u"龥": 
                result.append(word)
        else:
            if len(word) <= 2: result.append(word)
            else:
                result.extend(word_len2(word))
            if not word.encode("utf-8").isalnum():
                for char in word: 
                    if char not in result: result.append(char)
    result = [i.encode("utf-8", "ignore") if type(i) is unicode 
              else i for i in result]
    return result

示例#4

显示文件

def seg_title_search(txt):
    result = []
    for word in seg_txt(txt):
        if word.isalnum():
            result.append(word.lower())
            continue
        word = word.decode("utf-8", "ignore")
        if len(word) == 1:
            if u"一" <= word <= u"龥":
                result.append(word)
        else:
            if len(word) <= 2: result.append(word)
            else:
                result.extend(word_len2(word))
            if not word.encode("utf-8").isalnum():
                for char in word:
                    if char not in result: result.append(char)
    result = [
        i.encode("utf-8", "ignore") if type(i) is unicode else i
        for i in result
    ]
    return result