Python WordTokenizer.tokenize_batch示例

编程语言: Python

命名空间/包名称: sciwing.tokenizers.word_tokenizer

类/类型: WordTokenizer

方法/功能: tokenize_batch

hotexamples.com的示例: 2

Python WordTokenizer.tokenize_batch - 已找到2个示例。这些是从开源项目中提取的最受好评的sciwing.tokenizers.word_tokenizer.WordTokenizer.tokenize_batch现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

WordTokenizer(30)

tokenize(4)

nlp(2)

tokenize_batch(2)

示例#1

显示文件

文件： test_pipeline_till_numericalization.py 项目： yyht/sciwing

def get_tokenized_data(get_parsect_data):
    parsect_json = get_parsect_data
    parsect_lines = parsect_json["parse_sect"]
    parsect_lines = parsect_lines[:100]
    tokenizer = WordTokenizer()

    lines = []
    labels = []

    for line_json in parsect_lines:
        text = line_json["text"]
        label = line_json["label"]
        lines.append(text)
        labels.append(label)

    instances = tokenizer.tokenize_batch(lines)

    return instances, labels

示例#2

显示文件

文件： test_tokenizer.py 项目： yyht/sciwing

 def test_len_sample_batch(self):
     sample_sentences = ["I like big apple.", "We process text"]
     tokenizer = WordTokenizer()
     tokenized = tokenizer.tokenize_batch(sample_sentences)
     assert len(tokenized) == 2