Python Vocab.load_pretrained_word_embeddings示例

编程语言: Python

命名空间/包名称: utils

类/类型: Vocab

方法/功能: load_pretrained_word_embeddings

hotexamples.com的示例: 1

Python Vocab.load_pretrained_word_embeddings - 已找到1个示例。这些是从开源项目中提取的最受好评的utils.Vocab.load_pretrained_word_embeddings现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

encode(30)

construct(30)

load(15)

Vocab(9)

add_word(6)

to_input_tensor(4)

get_word_list(3)

pickle(3)

decode(3)

get_train_dev_test(3)

get_pre_trained_examples(2)

build_vocab(2)

add_dataframe(2)

save_to_file(2)

add(2)

add_special_token(2)

update(2)

build_bert_vocab(2)

build(2)

add_words(2)

add_special_tokens(2)

build_embedding_matrix(2)

word2id(1)

get_wv(1)

id2word(1)

indices2tokens(1)

transform(1)

_looking_up(1)

load_pretrained_char_embeddings(1)

load_pretrained_word_embeddings(1)

py_size(1)

randomly_init_py_embeddings(1)

size(1)

add_char(1)

filter_pys_by_cnt(1)

get_vocab(1)

construct_phrase(1)

add_list(1)

add_py(1)

build_from_counter(1)

char_size(1)

check_words(1)

construct_batch(1)

convert_to_str(1)

getIndex(1)

decode_docs(1)

emb_wordtoindex(1)

__len__(1)

filter_chars_by_cnt(1)

filter_tokens_by_cnt(1)

示例#1

显示文件

文件： run.py 项目： colinsongf/qa-reader

def prepare(config):
    """
    checks data, creates the directories, 
    prepare the vocabulary and embeddings
    """
    logger = logging.getLogger('qarc')
    logger.info('Checking the data files...')
    for data_path in config.train_files + config.dev_files + config.test_files:
        assert os.path.exists(data_path),\
            '{} file does not exist.'.format(data_path)
    logger.info('Preparing the directories...')
    train_summary_dir = os.path.join(config.summary_dir, 'train')
    dev_summary_dir = os.path.join(config.summary_dir, 'dev')
    for dir_path in [config.vocab_dir, config.model_dir, config.result_dir, train_summary_dir, dev_summary_dir]:
        if not os.path.exists(dir_path):
            os.makedirs(dir_path)

    logger.info('Load dataset...')
    if config.dataset_name.startswith('cmrc2018'):
        qarc_data = CMRCDataset(config.max_p_len, config.max_q_len, config.max_char_len, config.max_py_len,
                                config.train_files, config.dev_files, config.test_files)
    else:
        qarc_data = BRCDataset(config.max_p_num, config.max_p_len, config.max_q_len, config.max_char_len,
                               config.train_files, config.dev_files, config.test_files)

    logger.info('Building vocabulary...')
    vocab = Vocab(lower=True)
    for word in qarc_data.word_iter('train'):
        vocab.add_word(word)
    for char in qarc_data.char_iter('train'):
        vocab.add_char(char)
    for py in qarc_data.py_iter('train'):
        vocab.add_py(py)

    unfiltered_vocab_word_size = vocab.word_size()
    vocab.filter_tokens_by_cnt(min_cnt=2)
    filtered_word_num = unfiltered_vocab_word_size - vocab.word_size()
    logger.info('After filter {} tokens, the final vocab size is {}'.format(
        filtered_word_num, vocab.word_size()))

    unfiltered_vocab_char_size = vocab.char_size()
    vocab.filter_chars_by_cnt(min_cnt=2)
    filtered_char_num = unfiltered_vocab_char_size - vocab.char_size()
    logger.info('After filter {} chars, the final chars size is {}'.format(
        filtered_char_num, vocab.char_size()))

    unfiltered_vocab_py_size = vocab.py_size()
    vocab.filter_pys_by_cnt(min_cnt=2)
    filtered_py_num = unfiltered_vocab_py_size - vocab.py_size()
    logger.info('After filter {} pys, the final pys size is {}'.format(
        filtered_py_num, vocab.py_size()))

    logger.info('Assigning word embeddings...')
    vocab.load_pretrained_word_embeddings(
        config.word2vec, config.word_embed_dim)

    logger.info('Assigning char embeddings...')
    # vocab.randomly_init_char_embeddings(config.char_embed_dim)
    vocab.load_pretrained_char_embeddings(
        config.word2vec, config.char_embed_dim)

    logger.info('Assigning py embeddings...')
    vocab.randomly_init_py_embeddings(config.py_embed_dim)

    logger.info('Saving vocab...')
    with open(os.path.join(config.vocab_dir, config.dataset_name + '_vocab.data'), 'wb') as fout:
        pickle.dump(vocab, fout)

    logger.info('Done with preparing!')