Esempi in Python per Tokenizer.is_zh

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: my_class.Tokenizer

Classe/tipologia: Tokenizer

Metodo/funzione: is_zh

Esempi su hotexamples.com: 2

Tokenizer.is_zh in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per my_class.Tokenizer.Tokenizer.is_zh, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Tokenizer(2)

is_stop_word(1)

is_zh(1)

stemming(1)

to_tokens(1)

Esempio n. 1

Mostra file

File: language_processing.py Progetto: WayWingsDev/search-engine

def split_zh_en (zh_en_str):

    tokenizer = Tokenizer()
    mark = {"en":1, "zh":2}
    zh_en_group = []
    zh_set = []
    en_set = []
    status = ""
    en = ""
    zh = ""
    for c in zh_en_str:
        if tokenizer.is_zh(c):
            if status == 'en':
                zh_en_group.append ([mark["en"], ''.join(en_set)])
                en += ''.join(en_set)
                en_set = []
            zh_set.append(c)
            status = 'zh'
        else:
            if status == 'zh':
                zh_en_group.append ([mark["zh"], ''.join(zh_set)])
                zh += ''.join(zh_set)
                zh_set = []
            en_set.append(c)
            status = 'en'
        
    if en_set:
        zh_en_group.append ([mark["en"], ''.join(en_set)])
        en += ''.join(en_set)
    elif zh_set:
        zh_en_group.append ([mark["zh"], ''.join(zh_set)])
        zh += ''.join(zh_set)
    if en == "":
        print 'error'

    return zh_en_group, en, zh

Esempio n. 2

Mostra file

def split_zh_en(zh_en_str):

    tokenizer = Tokenizer()
    mark = {"en": 1, "zh": 2}
    zh_en_group = []
    zh_set = []
    en_set = []
    status = ""
    en = ""
    zh = ""
    for c in zh_en_str:
        if tokenizer.is_zh(c):
            if status == 'en':
                zh_en_group.append([mark["en"], ''.join(en_set)])
                en += ''.join(en_set)
                en_set = []
            zh_set.append(c)
            status = 'zh'
        else:
            if status == 'zh':
                zh_en_group.append([mark["zh"], ''.join(zh_set)])
                zh += ''.join(zh_set)
                zh_set = []
            en_set.append(c)
            status = 'en'

    if en_set:
        zh_en_group.append([mark["en"], ''.join(en_set)])
        en += ''.join(en_set)
    elif zh_set:
        zh_en_group.append([mark["zh"], ''.join(zh_set)])
        zh += ''.join(zh_set)
    if en == "":
        print 'error'

    return zh_en_group, en, zh