Python malaya_word2vec 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: malaya

메소드/함수: malaya_word2vec

hotexamples.com에서의 예제들: 7

Python malaya_word2vec - 7개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 malaya.malaya_word2vec에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: test_word2vec.py 프로젝트: keyreply/Malaya

def test_word2vec_n_closest():
    embedded = malaya.malaya_word2vec(256)
    word_vector = malaya.Word2Vec(embedded['nce_weights'],
                                  embedded['dictionary'])
    word = 'anwar'
    assert len(word_vector.n_closest(word=word, num_closest=8,
                                     metric='cosine')) > 0

예제 #2

파일 보기

파일: test_word2vec.py 프로젝트: keyreply/Malaya

def test_word2vec_n_closest_without_similarity():
    embedded = malaya.malaya_word2vec(256)
    word_vector = malaya.Word2Vec(embedded['nce_weights'],
                                  embedded['dictionary'])
    word = 'anwar'
    assert len(
        word_vector.n_closest(
            word=word, num_closest=8, metric='cosine',
            return_similarity=False)) > 0

예제 #3

파일 보기

파일: test_word2vec.py 프로젝트: keyreply/Malaya

def test_word2vec_tsne():
    embedded = malaya.malaya_word2vec(32)
    word_vector = malaya.Word2Vec(embedded['nce_weights'],
                                  embedded['dictionary'])
    embed_2d, word_list = word_vector.project_2d(0, 100)
    assert embed_2d.shape[1] == 2

예제 #4

파일 보기

파일: test_word2vec.py 프로젝트: keyreply/Malaya

def test_word2vec_analogy():
    embedded = malaya.malaya_word2vec(256)
    word_vector = malaya.Word2Vec(embedded['nce_weights'],
                                  embedded['dictionary'])
    assert len(word_vector.analogy('anwar', 'penjara', 'kerajaan', 5)) == 5

예제 #5

파일 보기

파일: Research.py 프로젝트: syazanihussin/FLUX

def word_count(str):
    counts = dict()
    words = str.split()

    for word in words:
        if word in counts:
            counts[word] += 1
        else:
            counts[word] = 1

    return counts


''' TEST DIFFERENT EMBEDDING PERFORMANCE ON DIFFERENT DATASET '''

embedded = malaya.malaya_word2vec(256)

print(len(embedded['dictionary']), embedded['nce_weights'].shape)
word_vector = malaya.Word2Vec(embedded['nce_weights'], embedded['dictionary'])
''' FEATURE SELECTION '''

tvec = TfidfVectorizer(max_features=100000, ngram_range=(1, 3))
x_train_tfidf = tvec.fit_transform(train_x)
chi2score = chi2(x_train_tfidf, train_y)[0]

plt.figure(figsize=(15, 10))
wscores = zip(tvec.get_feature_names(), chi2score)
wchi2 = sorted(wscores, key=lambda x: x[1])
topchi2 = list(zip(*wchi2[-20:]))
x = range(len(topchi2[1]))
labels = topchi2[0]

예제 #6

파일 보기

파일: test_word2vec.py 프로젝트: sunilsivadas/Malaya

def test_word2vec_calculator_n_closest_without_similarity():
    embedded = malaya.malaya_word2vec(256)
    word_vector = malaya.Word2Vec(embedded['nce_weights'], embedded['dictionary'])
    assert len(word_vector.calculator('anwar + mahathir', num_closest=8, metric='cosine', return_similarity=False))

예제 #7

파일 보기

파일: test_word2vec.py 프로젝트: sunilsivadas/Malaya

def test_word2vec_calculator_bracket():
    embedded = malaya.malaya_word2vec(256)
    word_vector = malaya.Word2Vec(embedded['nce_weights'], embedded['dictionary'])
    assert len(word_vector.calculator('(anwar+hadi) * mahathir', num_closest=8, metric='cosine'))