Python get_corpus_by_lists 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: utils.gensim_utils.basic_utils

메소드/함수: get_corpus_by_lists

hotexamples.com에서의 예제들: 2

Python get_corpus_by_lists - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 utils.gensim_utils.basic_utils.get_corpus_by_lists에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: corpus_utils.py 프로젝트: JayveeHe/OpinionRankProject

def cal_idf():
    # brown.sents()
    total_wordlists = []
    doc_sents = []
    for f in brown.fileids():
        print f
        doc_wordlist = []
        doc_sentlist = brown.sents(fileids=[f])
        d_sents = ''
        for sent in doc_sentlist:
            s = ''
            # sent = stem_tokens(sent)
            for w in sent:
                w = w.lower()
                s += w + ' '
            d_sents += s + '\n'
            doc_wordlist.extend(sent)
        total_wordlists.append(doc_wordlist)
        doc_sents.append(d_sents)
    print 'start caling tfidf'

    from sklearn.feature_extraction.text import TfidfVectorizer
    corpus = doc_sents
    vectorizer = TfidfVectorizer(min_df=1)
    X = vectorizer.fit_transform(corpus)
    idf = vectorizer.idf_
    # print dict(zip(vectorizer.get_feature_names(), idf))
    pickle.dump(vectorizer, open('idf_vectorizer', 'w'))
    dictionary = corpora.Dictionary(total_wordlists)
    dic, corps = get_corpus_by_lists(total_wordlists)
    tfidf = models.TfidfModel(corps, id2word=dic)
    pickle.dump(tfidf, open('brown_tfidf', 'w'))

예제 #2

파일 보기

파일: lda_utils.py 프로젝트: JayveeHe/OpinionRankProject

def train_model_by_wordlists(wordlists, num_topics=5, iterations=100, passes=10, is_tfidf=False):
    c_result = basic_utils.get_corpus_by_lists(wordlists)
    dic = c_result[0]
    corpus = c_result[1]
    if is_tfidf:
        tfidf = models.TfidfModel(corpus)
        corpus_tfidf = tfidf[corpus]
        lda_model = models.LdaModel(corpus_tfidf, id2word=dic, num_topics=num_topics, iterations=iterations,
                                    passes=passes)
    else:
        lda_model = models.LdaModel(corpus, id2word=dic, num_topics=num_topics, iterations=iterations, passes=passes)

    return lda_model