Python Vocabulary.build示例

编程语言: Python

命名空间/包名称: data

类/类型: Vocabulary

方法/功能: build

hotexamples.com的示例: 3

Python Vocabulary.build - 已找到3个示例。这些是从开源项目中提取的最受好评的data.Vocabulary.build现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Vocabulary(30)

load(6)

build(3)

encode(2)

from_file(1)

get_char(1)

index_sentences(1)

lookup_idx(1)

numCharacters(1)

save(1)

save_word_indexes(1)

token_to_id(1)

tokenize(1)

示例#1

显示文件

文件： prepare_vocab.py 项目： yasufumy/keras_qanet

def main(args):
    spacy_en = spacy.load('en_core_web_sm', disable=['vectors', 'textcat', 'tagger', 'parser', 'ner'])

    postprocess = str.lower if args.lower else lambda x: x

    def tokenizer(x):
        return [postprocess(token.text) for token in spacy_en(x) if not token.is_space]

    if args.only_question:
        indices = [1]
        desc = 'question'
    elif args.only_context:
        indices = [0]
        desc = 'context'
    else:
        indices = [0, 1]
        desc = 'question_context'

    basename, ext = os.path.splitext(args.vocab_path)
    min_freq = args.min_freq if args.min_freq else ''
    max_size = args.max_size if args.max_size else ''
    filename = f'{basename}_{desc}_min-freq{min_freq}_max_size{max_size}{ext}'

    squad_tokens = load_squad_tokens(args.train_path, tokenizer, indices=indices)
    Vocabulary.build(squad_tokens, args.min_freq, args.max_size, (PAD_TOKEN, UNK_TOKEN), filename)

示例#2

显示文件

def main(args):
    tokenizer = get_tokenizer(lower=args.lower, as_str=True)

    if args.only_question:
        indices = [1]
        desc = 'question'
    elif args.only_context:
        indices = [0]
        desc = 'context'
    else:
        indices = [0, 1]
        desc = 'question_context'

    basename, ext = os.path.splitext(args.vocab_path)
    min_freq = args.min_freq if args.min_freq else ''
    max_size = args.max_size if args.max_size else ''
    filename = f'{basename}_{desc}_min-freq{min_freq}_max_size{max_size}{ext}'

    squad_tokens = load_squad_tokens(args.train_path,
                                     tokenizer,
                                     indices=indices)
    Vocabulary.build(squad_tokens, args.min_freq, args.max_size,
                     (PAD_TOKEN, UNK_TOKEN), filename)

示例#3

显示文件

文件： test_data.py 项目： yasufumy/keras_qanet

 def test_build(self):
     tokens = ['rock', 'n', 'roll']
     token_to_index, index_to_token = Vocabulary.build(
         tokens, 1, 4, ('<pad>', ), None)
     tokens += ['<pad>']
     self.assertCountEqual(token_to_index.keys(), tokens)