Python basic_tokenizer示例

编程语言: Python

命名空间/包名称: data_helpers

方法/功能: basic_tokenizer

hotexamples.com的示例: 2

Python basic_tokenizer - 已找到2个示例。这些是从开源项目中提取的最受好评的data_helpers.basic_tokenizer现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： test_parsed.py 项目： ansonb/reverse_dictionary

def getWords(data):
    words_arr = []
    for _def in data:
        sentence = _def['sent']
        sentence = data_helpers.preprocess_data(sentence)
        words_arr += data_helpers.basic_tokenizer(sentence)

        def_word = _def['def_word']
        def_word = data_helpers.preprocess_data(def_word)
        words_arr += [def_word]

    return words_arr

示例#2

显示文件

def prepare_sentence_tokens(sentences):
    print('Tokenizing sentences...')
    in_sent_arr = []
    in_token_arr = []

    max_seq_len = 0

    for line in sentences:
        tokenized_in = data_helpers.basic_tokenizer(line)

        if len(tokenized_in) > max_seq_len:
            max_seq_len = len(tokenized_in)

        in_sent_arr.append(line)
        in_token_arr.append(tokenized_in)

    print("Done Tokenizing")
    print("max_seq_len")
    print(max_seq_len)

    return in_sent_arr, in_token_arr, max_seq_len