Python Corpus.getNumOfSampleDocsの例

プログラミング言語: Python

名前空間/パッケージ名: corpus

クラス/型: Corpus

メソッド/関数: getNumOfSampleDocs

hotexamples.comのコード掲載数: 2

Python Corpus.getNumOfSampleDocs - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのcorpus.Corpus.getNumOfSampleDocsの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Corpus(30)

emails(15)

__init__(13)

save_to_file(4)

add_extra_info(4)

buildCorpusOnDB(3)

concetenate_corpus(3)

connect_to(3)

add_instance(3)

accuracy_corpus(3)

pop_instance(3)

emails_as_string(2)

convert_dictionary_to_words2vec(2)

construir_corpus(2)

construct_SentencesAndSPerItem(2)

construct_QAnswersAndQPerItem(2)

fit_features(2)

epoch_flag(2)

generate_batch_from_file(2)

export(2)

calculate_primary_targets(2)

Calculate_PairWiseFeature(2)

getTweets(2)

add_file(2)

add(2)

get_sentences(2)

add_document(2)

fit(2)

fill(1)

negativeWordDict(1)

representations(1)

read(1)

fit_dictionary(1)

query_by_id(1)

fit_matrix(1)

freeze(1)

positiveWordDict(1)

parse_xml(1)

getNumericDictionary(1)

from_config(1)

from_dict(1)

loadVocabulary(1)

generate_corpus_from_graph_using_random_walk(1)

instances(1)

getNumOfSampleDocs(1)

getRanges(1)

full_targets(1)

gaussian_model(1)

getAttributeVal(1)

gen_batch(1)

コード例 #1

ファイルを表示

ファイル: LDA.py プロジェクト: jsuit/hack-night-1-clusterer

import numpy as np
from numpy import matlib
import time
import pprint
import sklearn

t0 = time.time()
k = 100
alpha = .1
beta = .01
sampleFile = 'ap.txt'
#sampleFile = 'ap2.text'
sample_vocab = 'vocab.txt'
corpus = Corpus()

corpus.num_docs = corpus.getNumOfSampleDocs(sampleFile)
corpus.vocab, corpus.num_terms = corpus.getSampleVocab(sample_vocab)
corpus.readDocsSample(sampleFile)
#document-topic
DTMatrix = matlib.zeros((corpus.num_docs, k), dtype='float_')
#term,topic matrix
TTMatrix = matlib.zeros((corpus.num_terms, k), dtype='float_')
vocab_index_dict = {
    word.rstrip(): index
    for index, word in enumerate(corpus.vocab)
}
vocab_word_dict = {index: word for word, index in vocab_index_dict.iteritems()}
DocVocab = {}
#doc is an int

for doc_num, words in corpus.docs.iteritems():

コード例 #2

ファイルを表示

ファイル: LDA.py プロジェクト: jsuit/hack-night-1-clusterer

from numpy import matlib
import time
import pprint
import sklearn

t0 = time.time()
k=100
alpha = .1
beta = .01
sampleFile = 'ap.txt'
#sampleFile = 'ap2.text'
sample_vocab = 'vocab.txt'
corpus = Corpus()


corpus.num_docs = corpus.getNumOfSampleDocs(sampleFile)
corpus.vocab,corpus.num_terms = corpus.getSampleVocab(sample_vocab)
corpus.readDocsSample(sampleFile)
#document-topic
DTMatrix = matlib.zeros((corpus.num_docs,k),dtype='float_')
#term,topic matrix
TTMatrix =matlib.zeros((corpus.num_terms,k),dtype='float_')
vocab_index_dict = {word.rstrip():index for index, word in enumerate(corpus.vocab)}
vocab_word_dict = {index:word for word,index in vocab_index_dict.iteritems()}
DocVocab = {}
#doc is an int

for doc_num,words in corpus.docs.iteritems():
        #sample topic index for word
        #each word in a document gets assigned a topic
        #words = set(vocab_index_dict.keys()) & set(words)