Python custom_tokenize示例

编程语言: Python

命名空间/包名称: utils

方法/功能: custom_tokenize

hotexamples.com的示例: 4

Python custom_tokenize - 已找到4个示例。这些是从开源项目中提取的最受好评的utils.custom_tokenize现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

def get_ins_dels(incorr_line, correct_line):
    ins = defaultdict(int)
    dels = defaultdict(int)
    rejected = 0

    incorr_tokens = custom_tokenize(incorr_line, wordpiece_tokenizer, mode="train")
    correct_tokens = custom_tokenize(correct_line, wordpiece_tokenizer, mode="train")
    diffs = seq2edits_utils.ndiff(incorr_tokens, correct_tokens)

    for item in diffs:
        if item[0]=="+":
            if len(item[2:].split())>2:
                return defaultdict(int), defaultdict(int), 1
            ins[item[2:]]+=1
        elif item[0]=="-":
            dels[item[2:]]+=1

    return ins,dels,0

示例#2

显示文件

def get_tuple(line):

    if FLAGS.do_spell_check:
        line = line.strip().split()
        line = wordpiece_tokenizer.basic_tokenizer._run_spell_check(line)
        line = " ".join(line)
    tokens = custom_tokenize(line, wordpiece_tokenizer)
    token_ids = wordpiece_tokenizer.convert_tokens_to_ids(tokens)
    #print(tokens)
    #print(token_ids)
    return tokens, token_ids

示例#3

显示文件

文件： get_seq2edits.py 项目： binhetech/PIE-GEC

def seq2edits(incorr_line, correct_line):
    # Seq2Edits function (Described in Section 2.2 of the paper)
    # obtains edit ids from incorrect and correct tokens
    # input: incorrect line and correct line
    # output: incorr_tokens, correct_tokens,  incorr token ids, edit ids

    # tokenize incorr_line and correct_line
    incorr_tokens = custom_tokenize(incorr_line,
                                    wordpiece_tokenizer,
                                    mode="train")
    correct_tokens = custom_tokenize(correct_line,
                                     wordpiece_tokenizer,
                                     mode="train")
    # generate diffs using modified edit distance algorith
    # (Described in Appendix A.1 of the paper)
    diffs = seq2edits_utils.ndiff(incorr_tokens, correct_tokens)
    # align diffs to get edits
    edit_ids = diffs_to_edits(diffs)

    if not edit_ids:
        return None
    # get incorrect token ids
    incorr_tok_ids = wordpiece_tokenizer.convert_tokens_to_ids(incorr_tokens)
    return incorr_tokens, correct_tokens, incorr_tok_ids, edit_ids

示例#4

显示文件

def get_tuple(wordpiece_tokenizer, line, do_spell_check):
    """
    进行tokenize.

    Args:
        wordpiece_tokenizer: class, tokenizer
        line: string, 输入文本
        do_spell_check: boolean, 是否进行autocorrect的拼写检查

    Return:
        tokens, token_ids

    """
    if do_spell_check:
        line = line.strip().split()
        line = wordpiece_tokenizer.basic_tokenizer._run_spell_check(line)
        line = " ".join(line)
    tokens = custom_tokenize(line, wordpiece_tokenizer)
    token_ids = wordpiece_tokenizer.convert_tokens_to_ids(tokens)
    return tokens, token_ids