Python Vocab.process_word示例

编程语言: Python

命名空间/包名称: data_generator.vocab

类/类型: Vocab

方法/功能: process_word

hotexamples.com的示例: 2

Python Vocab.process_word - 已找到2个示例。这些是从开源项目中提取的最受好评的data_generator.vocab.Vocab.process_word现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Vocab(14)

encode(13)

process_word(2)

describe(1)

vocab_size(1)

示例#1

显示文件

文件： val_data.py 项目： rekriz11/sockeye-recipes

    def process_line(self, line, vocab, max_len, need_raw=False):
        if self.model_config.tokenizer == 'split':
            words = line.split()
        elif self.model_config.tokenizer == 'nltk':
            words = word_tokenize(line)
        else:
            raise Exception('Unknown tokenizer.')

        words = [Vocab.process_word(word, self.model_config)
                 for word in words]
        if need_raw:
            words_raw = [constant.SYMBOL_START] + words + [constant.SYMBOL_END]
        else:
            words_raw = None

        if self.model_config.subword_vocab_size > 0:
            words = [constant.SYMBOL_START] + words + [constant.SYMBOL_END]
            words = vocab.encode(' '.join(words))
        else:
            words = [vocab.encode(word) for word in words]
            words = ([self.vocab_simple.encode(constant.SYMBOL_START)] + words +
                     [self.vocab_simple.encode(constant.SYMBOL_END)])

        if self.model_config.subword_vocab_size > 0:
            pad_id = vocab.encode(constant.SYMBOL_PAD)
        else:
            pad_id = [vocab.encode(constant.SYMBOL_PAD)]

        if len(words) < max_len:
            num_pad = max_len - len(words)
            words.extend(num_pad * pad_id)
        else:
            words = words[:max_len]

        return words, words_raw

示例#2

显示文件

文件： data_utils.py 项目： zchenack/text_simplification

def process_line(line,
                 vocab,
                 max_len,
                 model_config,
                 need_raw=False,
                 lower_case=True,
                 base_line=None):
    if lower_case:
        line = line.lower()
    if type(line) == bytes:
        line = str(line, 'utf-8')

    if model_config.tokenizer == 'split':
        words = line.split()
    elif model_config.tokenizer == 'nltk':
        words = word_tokenize(line)
    else:
        raise Exception('Unknown tokenizer.')

    words = [Vocab.process_word(word, model_config) for word in words]
    if need_raw:
        words_raw = [constant.SYMBOL_START] + words + [constant.SYMBOL_END]
    else:
        words_raw = None

    if model_config.subword_vocab_size > 0 or 'bert_token' in model_config.bert_mode:
        words = [constant.SYMBOL_START] + words + [constant.SYMBOL_END]
        words = vocab.encode(' '.join(words))
    else:
        words = [vocab.encode(word) for word in words]
        words = ([vocab.encode(constant.SYMBOL_START)] + words +
                 [vocab.encode(constant.SYMBOL_END)])

    if model_config.subword_vocab_size > 0 or 'bert_token' in model_config.bert_mode:
        pad_id = vocab.encode(constant.SYMBOL_PAD)
    else:
        pad_id = [vocab.encode(constant.SYMBOL_PAD)]

    if len(words) < max_len:
        num_pad = max_len - len(words)
        words.extend(num_pad * pad_id)
    else:
        words = words[:max_len]

    obj = {}
    if model_config.subword_vocab_size and 'seg' in model_config.seg_mode:
        obj['segment_idxs'] = get_segment_idx(words, vocab)
    elif model_config.subword_vocab_size and 'cp' in model_config.seg_mode:
        populate_freq('/zfs1/hdaqing/saz31/dataset/vocab/all.vocab')
        obj['segment_idxs'] = get_segment_copy_idx(words,
                                                   freq,
                                                   vocab,
                                                   base_line=base_line)

    return words, words_raw, obj