Python get_word_vec_dict 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: util

메소드/함수: get_word_vec_dict

hotexamples.com에서의 예제들: 4

Python get_word_vec_dict - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 util.get_word_vec_dict에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

def build_average_dv(docs,
                     doc_num,
                     model,
                     save=True,
                     save_file="doc_vector_ave.bin"):
    num_features = model.syn0.shape[1]

    manager = Manager()
    global_doc_vector = mp.Array('d', doc_num * num_features, lock=False)
    global_word_set = manager.dict(util.get_word_vec_dict(model))

    pool = mp.Pool(initializer=initprocess, initargs=[global_doc_vector])

    index = 0
    for words in docs:
        pool.apply_async(single_average_dv, [
            words,
            global_word_set,
            index,
            doc_num,
        ])
        index += 1

    pool.close()
    pool.join()

    doc_vector = np.frombuffer(global_doc_vector).reshape(
        (doc_num, num_features))
    # print doc_vector
    if save:
        np.save(save_file, doc_vector)
    return doc_vector

예제 #2

파일 보기

파일: docvector_parallel_Deprecated.py 프로젝트: Crazyconv/Word2Vec2NLP

def build_av_tf_idf_dv(docs, doc_num, model, save=True, save_file="doc_vector_tfidf.bin"):
    docs = list(docs)
    vectorizer = CountVectorizer()
    tfidf_transformer = TfidfTransformer()
    count_fv = vectorizer.fit_transform(util.word2sentence(docs))
    tfidf_fv = tfidf_transformer.fit_transform(count_fv)

    num_features = model.syn0.shape[1]

    manager = Manager()
    global_word_set = manager.dict(util.get_word_vec_dict(model))
    global_vocabulary = manager.dict(vectorizer.vocabulary_);
    global_doc_vector = mp.Array('d', doc_num*num_features, lock=False)

    pool = mp.Pool(initializer=initprocess, initargs=[global_doc_vector])

    index = 0
    # test(docs[0], global_word_set, 0, doc_num, global_vocabulary, global_doc_vector, global_tfidf_fv)
    for words in docs:
        pool.apply_async(single_av_tf_idf_dv, [words, global_word_set, index, doc_num, global_vocabulary, tfidf_fv[index]])
        index += 1

    pool.close()
    pool.join()

    doc_vector = np.frombuffer(global_doc_vector).reshape((doc_num, num_features))
    if save:
        np.save(save_file, doc_vector)
    return doc_vector

예제 #3

파일 보기

파일: docvector_parallel_Deprecated.py 프로젝트: Crazyconv/Word2Vec2NLP

def build_average_dv(docs, doc_num, model, save=True, save_file="doc_vector_ave.bin"):
    num_features = model.syn0.shape[1]

    manager = Manager()
    global_doc_vector = mp.Array('d', doc_num*num_features, lock=False)
    global_word_set = manager.dict(util.get_word_vec_dict(model))

    pool = mp.Pool(initializer=initprocess, initargs=[global_doc_vector])

    index = 0
    for words in docs:
        pool.apply_async(single_average_dv, [words, global_word_set, index, doc_num, ])
        index += 1

    pool.close()
    pool.join()

    doc_vector = np.frombuffer(global_doc_vector).reshape((doc_num, num_features))
    # print doc_vector
    if save:
        np.save(save_file, doc_vector)
    return doc_vector

예제 #4

파일 보기

def build_av_tf_idf_dv(docs,
                       doc_num,
                       model,
                       save=True,
                       save_file="doc_vector_tfidf.bin"):
    docs = list(docs)
    vectorizer = CountVectorizer()
    tfidf_transformer = TfidfTransformer()
    count_fv = vectorizer.fit_transform(util.word2sentence(docs))
    tfidf_fv = tfidf_transformer.fit_transform(count_fv)

    num_features = model.syn0.shape[1]

    manager = Manager()
    global_word_set = manager.dict(util.get_word_vec_dict(model))
    global_vocabulary = manager.dict(vectorizer.vocabulary_)
    global_doc_vector = mp.Array('d', doc_num * num_features, lock=False)

    pool = mp.Pool(initializer=initprocess, initargs=[global_doc_vector])

    index = 0
    # test(docs[0], global_word_set, 0, doc_num, global_vocabulary, global_doc_vector, global_tfidf_fv)
    for words in docs:
        pool.apply_async(single_av_tf_idf_dv, [
            words, global_word_set, index, doc_num, global_vocabulary,
            tfidf_fv[index]
        ])
        index += 1

    pool.close()
    pool.join()

    doc_vector = np.frombuffer(global_doc_vector).reshape(
        (doc_num, num_features))
    if save:
        np.save(save_file, doc_vector)
    return doc_vector