Python Vocab.add_special_tokens Examples

Programming Language: Python

Namespace/Package Name: utils

Class/Type: Vocab

Method/Function: add_special_tokens

Examples at hotexamples.com: 2

Python Vocab.add_special_tokens - 2 examples found. These are the top rated real world Python examples of utils.Vocab.add_special_tokens extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

encode(30)

construct(30)

load(15)

Vocab(9)

add_word(6)

to_input_tensor(4)

get_word_list(3)

pickle(3)

decode(3)

get_train_dev_test(3)

get_pre_trained_examples(2)

build_vocab(2)

add_dataframe(2)

save_to_file(2)

add(2)

add_special_token(2)

update(2)

build_bert_vocab(2)

build(2)

add_words(2)

add_special_tokens(2)

build_embedding_matrix(2)

word2id(1)

get_wv(1)

id2word(1)

indices2tokens(1)

transform(1)

_looking_up(1)

load_pretrained_char_embeddings(1)

load_pretrained_word_embeddings(1)

py_size(1)

randomly_init_py_embeddings(1)

size(1)

add_char(1)

filter_pys_by_cnt(1)

get_vocab(1)

construct_phrase(1)

add_list(1)

add_py(1)

build_from_counter(1)

char_size(1)

check_words(1)

construct_batch(1)

convert_to_str(1)

getIndex(1)

decode_docs(1)

emb_wordtoindex(1)

__len__(1)

filter_chars_by_cnt(1)

filter_tokens_by_cnt(1)

Example #1

Show file

def main():
    config = get_config(mode='test')

    if config.data_name == "cornell":
        vocab = Vocab()
        vocab.load(config.word2id_path,
                   config.id2word_path,
                   ptb=(config.model == "PTB"))
        print(f'Vocabulary size: {vocab.vocab_size}')
        config.vocab_size = vocab.vocab_size

        if config.users:
            test_users = load_pickle(config.convs_users_path)
            config.user_size = max([x for xx in test_users for x in xx]) + 1
            print(f'User size: {config.user_size}')
        else:
            test_users = None

        data_loader = get_loader(
            convs=load_pickle(config.convs_path),
            convs_length=load_pickle(config.conversations_length_path),
            utterances_length=load_pickle(config.utterances_length_path),
            vocab=vocab,
            batch_size=config.batch_size,
            shuffle=False,
            convs_users=test_users,
            is_ptb_model=(config.model == "PTB"))

    elif config.model == "DialoGPT":
        if config.users:
            vocab = GPT2Tokenizer.from_pretrained(config.user_vocab_path)
        else:
            vocab = GPT2Tokenizer.from_pretrained('gpt2')
        config.vocab_size = len(vocab)
        config.vocab = vocab
        config.export_test = True
        data_loader = get_loader(convs=load_pickle(config.convs_path),
                                 vocab=vocab,
                                 batch_size=config.batch_size,
                                 model=config.model,
                                 dataset=config.data_name,
                                 config=config,
                                 shuffle=False)

    elif config.data_name == "cornell2" or config.data_name == "ubuntu" or config.data_name == "twitter_s":
        vocab = OpenAIGPTTokenizer.from_pretrained('openai-gpt')
        special_tokens = {
            'pad_token': PAD_TOKEN,
            'bos_token': SOS_TOKEN,
            'eos_token': EOS_TOKEN,
            'sep_token': SEP_TOKEN,
        }
        vocab.add_special_tokens(special_tokens)
        config.vocab_size = len(vocab)
        config.vocab = vocab
        config.pad_id = vocab.pad_token_id
        config.eos_id = vocab.eos_token_id
        config.sos_id = vocab.bos_token_id

        data_loader = get_loader(convs=load_pickle(config.convs_path),
                                 vocab=vocab,
                                 batch_size=config.batch_size,
                                 model=config.model,
                                 dataset=config.data_name,
                                 config=config,
                                 shuffle=False)
    else:
        raise ValueError("{} Sorry... We don't support that data".format(
            config.data_name))

    model_solver = getattr(solvers, "Solver{}".format(config.model))
    test_solver = model_solver(config,
                               None,
                               data_loader,
                               vocab=vocab,
                               is_train=False)

    test_solver.build()
    test_solver.export_samples(config.beam_size)

Example #2

Show file

File: train.py Project: juheeuu/AI-Conversation-Model

                                        vocab=vocab,
                                        batch_size=val_config.batch_size,
                                        model=val_config.model,
                                        dataset=config.data_name,
                                        config=config)


    elif config.data_name == "cornell2" or "ubuntu":
        vocab = OpenAIGPTTokenizer.from_pretrained('openai-gpt')
        special_tokens = {
            'pad_token': PAD_TOKEN,
            'bos_token': SOS_TOKEN,
            'eos_token': EOS_TOKEN,
            'sep_token': SEP_TOKEN,
        }
        vocab.add_special_tokens(special_tokens)
        config.vocab_size = len(vocab)
        config.vocab = vocab
        config.pad_id = vocab.pad_token_id
        config.eos_id = vocab.eos_token_id
        config.sos_id = vocab.bos_token_id 

        train_data_loader = get_loader(convs=load_pickle(config.convs_path),
                                        vocab=vocab, 
                                        batch_size=config.batch_size,
                                        model=config.model,
                                        dataset=config.data_name,
                                        config=config)
        
        eval_data_loader = get_loader(convs=load_pickle(val_config.convs_path),
                                        vocab=vocab,