Python JiebaTokenizerの例

プログラミング言語: Python

名前空間/パッケージ名: gluonnlp.data.tokenizers

クラス/型: JiebaTokenizer

hotexamples.comのコード掲載数: 2

Python JiebaTokenizer - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのgluonnlp.data.tokenizers.JiebaTokenizerの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

JiebaTokenizer(2)

set_vocab(1)

よく使われるメソッド

JiebaTokenizer (2)

set_vocab (1)

コード例 #1

ファイルを表示

def test_jieba_tokenizer():
    tokenizer = JiebaTokenizer()
    gt_zh_tokenized = [['苟活', '者', '在', '淡红', '的', '血色', '中', '，',
                        '会', '依稀', '看见', '微茫', '的', '希望', '；', '真的',
                        '猛士', '，', '将', '更奋', '然而', '前行', '。'],
                       ['参加', '工作', '，', '哈尔滨工业大学', '无线电', '工程系', '电子仪器',
                        '及', '测量', '技术', '专业', '毕业', '。']]
    verify_encode_token(tokenizer, ZH_SAMPLES, gt_zh_tokenized)
    verify_decode(tokenizer, ZH_SAMPLES, str)
    vocab = Vocab(collections.Counter(sum(gt_zh_tokenized, [])))
    verify_decode_no_vocab_raise(tokenizer)
    tokenizer.set_vocab(vocab)
    verify_decode(tokenizer, ZH_SAMPLES, int)
    verify_pickleble(tokenizer, JiebaTokenizer)

コード例 #2

ファイルを表示

ファイル: clean_tok_corpus.py プロジェクト: tlby/gluon-nlp

def get_tokenizer(tokenizer, lang=None):
    if isinstance(tokenizer, BaseTokenizer):
        return tokenizer
    else:
        if tokenizer == 'moses':
            return MosesTokenizer(lang=lang)
        elif tokenizer == 'whitespace':
            return WhitespaceTokenizer()
        elif tokenizer == 'jieba':
            return JiebaTokenizer()
        else:
            raise NotImplementedError