Esempi in Python per Vocabulary.add_words

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: utils.vocabulary

Classe/tipologia: Vocabulary

Metodo/funzione: add_words

Esempi su hotexamples.com: 2

Vocabulary.add_words in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per utils.vocabulary.Vocabulary.add_words, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Vocabulary(30)

load(18)

save(14)

build(10)

process_sentence(7)

load_vocabulary(3)

new(3)

size(2)

add_word(2)

add_words(2)

build_vocabulary_from_tokens(2)

compute_frequency(2)

fromlist(2)

load_glove_vocabulary(1)

merge_vocabularies(1)

save_counts(1)

observe_word(1)

setup_corpus_vocabulary(1)

ix2sent_drop_pad(1)

sent2ix(1)

sent2ix_andpad(1)

save_vocab(1)

get_word(1)

index(1)

get_char_vocab(1)

add(1)

add_token(1)

build_from_scratch(1)

construct_embedding_matrix(1)

freeze(1)

from_serializable(1)

get_index(1)

has_word(1)

get_language(1)

get_pad(1)

get_sentence(1)

get_unk(1)

abstract2sents(1)

get_word_vocab(1)

type_to_id(1)

Esempio n. 1

Mostra file

def prepare_train_data(config):
    """ Prepare the data for training the model. """
    vqa = VQA(config.train_answer_file, config.train_question_file)
    vqa.filter_by_ques_len(config.max_question_length)
    vqa.filter_by_ans_len(1)

    print("Reading the questions and answers...")
    annotations = process_vqa(vqa, 'COCO_train2014', config.train_image_dir,
                              config.temp_train_annotation_file)

    image_files = annotations['image_file'].values
    questions = annotations['question'].values
    question_ids = annotations['question_id'].values
    answers = annotations['answer'].values
    print("Questions and answers read.")
    print("Number of questions = %d" % (len(question_ids)))

    print("Building the vocabulary...")
    vocabulary = Vocabulary()
    if not os.path.exists(config.vocabulary_file):
        for question in tqdm(questions):
            vocabulary.add_words(word_tokenize(question))
        for answer in tqdm(answers):
            vocabulary.add_words(word_tokenize(answer))
        vocabulary.compute_frequency()
        vocabulary.save(config.vocabulary_file)
    else:
        vocabulary.load(config.vocabulary_file)
    print("Vocabulary built.")
    print("Number of words = %d" % (vocabulary.size))
    config.vocabulary_size = vocabulary.size

    print("Processing the questions and answers...")
    if not os.path.exists(config.temp_train_data_file):
        question_word_idxs, question_lens = process_questions(
            questions, vocabulary, config)
        answer_idxs = process_answers(answers, vocabulary)
        data = {
            'question_word_idxs': question_word_idxs,
            'question_lens': question_lens,
            'answer_idxs': answer_idxs
        }
        np.save(config.temp_train_data_file, data)
    else:
        data = np.load(config.temp_train_data_file).item()
        question_word_idxs = data['question_word_idxs']
        question_lens = data['question_lens']
        answer_idxs = data['answer_idxs']
    print("Questions and answers processed.")

    print("Building the dataset...")
    dataset = DataSet(image_files, question_word_idxs, question_lens,
                      question_ids, config.batch_size, answer_idxs, True, True)
    print("Dataset built.")
    return dataset, config

Esempio n. 2

Mostra file

def build_vocabulary(config):
    """ Build the vocabulary from the training data and save it to a file. """
    vqa = VQA(config.train_answer_file, config.train_question_file)
    vqa.filter_by_ques_len(config.max_question_length)
    vqa.filter_by_ans_len(1)

    question_ids = list(vqa.qa.keys())
    questions = [vqa.qqa[k]['question'] for k in question_ids]
    answers = [vqa.qa[k]['best_answer'] for k in question_ids]

    vocabulary = Vocabulary()
    for question in tqdm(questions):
        vocabulary.add_words(word_tokenize(question))
    for answer in tqdm(answers):
        vocabulary.add_words(word_tokenize(answer))
    vocabulary.compute_frequency()
    vocabulary.save(config.vocabulary_file)
    return vocabulary