Ejemplos de Corpus.convert_dictionary_to_words2vec en Python

Lenguaje de programación: Python

Namespace/Package Name: corpus

Clase / Tipo: Corpus

Método / Función: convert_dictionary_to_words2vec

Ejemplos en hotexamples.com: 2

Python Corpus.convert_dictionary_to_words2vec - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de corpus.Corpus.convert_dictionary_to_words2vec extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Corpus(30)

emails(15)

__init__(13)

save_to_file(4)

add_extra_info(4)

buildCorpusOnDB(3)

concetenate_corpus(3)

connect_to(3)

add_instance(3)

accuracy_corpus(3)

pop_instance(3)

emails_as_string(2)

convert_dictionary_to_words2vec(2)

construir_corpus(2)

construct_SentencesAndSPerItem(2)

construct_QAnswersAndQPerItem(2)

fit_features(2)

epoch_flag(2)

generate_batch_from_file(2)

export(2)

calculate_primary_targets(2)

Calculate_PairWiseFeature(2)

getTweets(2)

add_file(2)

add(2)

get_sentences(2)

add_document(2)

fit(2)

fill(1)

negativeWordDict(1)

representations(1)

read(1)

fit_dictionary(1)

query_by_id(1)

fit_matrix(1)

freeze(1)

positiveWordDict(1)

parse_xml(1)

getNumericDictionary(1)

from_config(1)

from_dict(1)

loadVocabulary(1)

generate_corpus_from_graph_using_random_walk(1)

instances(1)

getNumOfSampleDocs(1)

getRanges(1)

full_targets(1)

gaussian_model(1)

getAttributeVal(1)

gen_batch(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: __main__SimpleMGLDA.py Proyecto: silviatti/Multilingual-Gaussian-Latent-Dirichlet-Allocation-MGLDA

            output.write('%s\n' % doc)  # each doc in a new line

    corpus_source = Corpus()

    if Amazon_reviews:
        corpus_source.load_text(urpath +
                                "temporary_files/docs_filtered_source.txt",
                                valid_split=1 - rate_usageOfData_source_Amazon)
    else:
        corpus_source.load_text(urpath +
                                "temporary_files/docs_filtered_source.txt",
                                valid_split=1 - rate_usageOfData_source_Novel)

    corpus_source.process_wordvectors(joint_modelvw)

    words2vec_nyOfWord2vec_format = corpus_source.convert_dictionary_to_words2vec(
        fname=urpath + 'temporary_files/train_source.txt')

    model_source = GLDA(n_topics = n_topic, corpus = corpus_source.index2doc, words2vec_ny = corpus_source.words2vec_ny, \
                 words2vec = joint_modelvw, vocab_ny = corpus_source.vocab_ny, alpha = learning_rate)

    model_source.fit(iterations=n_gibbs_iteration_source)

    for k in range(n_topic):
        """ top words acc. to similairty to positive direction of cosine (standard direction) """
        print("TOPIC {0} w2v    pos:".format(k), \
             list(zip(*model_source.words2vec.most_similar( positive = [model_source.topic_params[k]["Topic Mean"]], topn = 20) ))[0])

        print('\n')

    time_source2 = time.time()
    print(

Ejemplo n.º 2

Mostrar archivo

Archivo: __main__GLDA.py Proyecto: silviatti/Multilingual-Gaussian-Latent-Dirichlet-Allocation-MGLDA

    else:
        corpus.load_text(urpath + "temporary_files/docs_filtered.txt",
                         valid_split=1 - rate_usageOfData_novels)

    if pre_trained_embedding:
        """ These files cantain pre-trained embeddings and should be downloaded manually from the given links. """
        gensim_file = urpath + 'data/wiki.en.simple.vec'  # English   https://fasttext.cc/docs/en/pretrained-vectors.html
        """ Alternativt: other pre-trained embeddings  
            gensim_file = urpath + 'data/wiki-news-300d-1M.vec'     # English   https://fasttext.cc/docs/en/english-vectors.html
            gensim_file = urpath + 'data/wiki.en.vec'               # English   https://fasttext.cc/docs/en/pretrained-vectors.html
            gensim_file = urpath + 'data/wiki.sv.vec'               # Swedish   https://fasttext.cc/docs/en/pretrained-vectors.html
            gensim_file = urpath + 'data/wiki.fa.vec'               # Persian   https://fasttext.cc/docs/en/pretrained-vectors.html
        """

        corpus.process_wordvectors(filepath=gensim_file)
        shrinkedEmbedding_OfWord2vecFormat = corpus.convert_dictionary_to_words2vec(
            fname=urpath + 'temporary_files/train.txt')
        model = GLDA(n_topics = n_topic, corpus=corpus.index2doc, words2vec_ny=corpus.words2vec_ny, words2vec=corpus.words2vec, \
             vocab_ny = corpus.vocab_ny, alpha = learning_rate)

    else:
        """ train and create word enbedding by Facebook's fasttext from the current data """
        modelvw = FastText(corpus.docs, size = dim_trained_embedding , window=3, min_count=1,workers=5, alpha = 0.1,\
                   iter = 10, sg = 1, word_ngrams=1)
        model = GLDA(n_topics = n_topic, corpus=corpus.index2doc, words2vec_ny=modelvw, words2vec=modelvw ,vocab_ny = corpus.vocab,\
            alpha = learning_rate)

    start = timeit.default_timer()
    model.fit(iterations=n_gibbs_iteration)
    stop = timeit.default_timer()
    print('Time for fitting the model is: ', (stop - start) / 60)
    """ printing the top words (results) of corresponding topic most_similar """