Exemplos de Dictionary.num_docs em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: gensim.corpora

Classe / Tipo: Dictionary

Método / Função: num_docs

Exemplos em hotexamples.com: 5

Dictionary.num_docs em Python - 5 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de gensim.corpora.Dictionary.num_docs em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

Dictionary(30)

add_documents(30)

load(30)

load_from_text(30)

filter_extremes(30)

doc2bow(30)

save(30)

compactify(30)

doc2idx(28)

save_as_text(28)

items(27)

filter_tokens(26)

keys(16)

from_corpus(15)

filter_n_most_frequent(13)

merge_with(10)

get(10)

values(9)

iteritems(7)

id2token(7)

from_documents(6)

patch_with_special_tokens(6)

token2id(4)

num_docs(2)

num_nnz(2)

dfs(2)

itervalues(1)

loadFromText(1)

filterExtremes(1)

most_common(1)

num_pos(1)

saveAsText(1)

add_word(1)

iterkeys(1)

Métodos Frequentes

Dictionary (30)

add_documents (30)

load (30)

load_from_text (30)

filter_extremes (30)

doc2bow (30)

save (30)

compactify (30)

doc2idx (28)

save_as_text (28)

Métodos Frequentes

items (27)

filter_tokens (26)

keys (16)

from_corpus (15)

filter_n_most_frequent (13)

merge_with (10)

get (10)

values (9)

iteritems (7)

id2token (7)

from_documents (6)

patch_with_special_tokens (6)

token2id (4)

num_docs (2)

num_nnz (2)

dfs (2)

itervalues (1)

loadFromText (1)

filterExtremes (1)

most_common (1)

Métodos Frequentes

from_documents (6)

patch_with_special_tokens (6)

token2id (4)

num_docs (2)

num_nnz (2)

dfs (2)

itervalues (1)

loadFromText (1)

filterExtremes (1)

most_common (1)

num_pos (1)

saveAsText (1)

add_word (1)

iterkeys (1)

Related in langs

ComposerAutoloaderInitd21ec7ac2336e3cfd2bdae319e5ed5dd (PHP)

bp_get_group_reject_invite_link (PHP)

EnterModel (C#)

ExplicitInterfaceImplementation (C#)

modifier_isPreview (C++)

PxCooking (C++)

NewRegistry (Go)

ExecCmdDir (Go)

CognitiveFunctionVoCollection (Java)

CstmTextField (Java)

Métodos Frequentes

num_pos (1)

saveAsText (1)

add_word (1)

iterkeys (1)

Relacionados

ThreadingServerManager

WordZH

getErrorMessageBox

instance_logger

WeatherModel

NetworkAdvertiserAssignForm

acc

get_TCC_DGnode

measure_best

fast_abs_percentile

Exemplo n.º 1

0

Exibir arquivo

Arquivo: ucicorpus.py Projeto: 234205367/gensim

def create_dictionary(self): """ Utility method to generate gensim-style Dictionary directly from the corpus and vocabulary data. """ dictionary = Dictionary() # replace dfs with defaultdict to avoid downstream KeyErrors # uci vocabularies may contain terms that are not used in the document data dictionary.dfs = defaultdict(int) dictionary.id2token = self.id2word dictionary.token2id = dict((v, k) for k, v in iteritems(self.id2word)) dictionary.num_docs = self.num_docs dictionary.num_nnz = self.num_nnz for docno, doc in enumerate(self): if docno % 10000 == 0: logger.info('PROGRESS: processing document %i of %i' % (docno, self.num_docs)) for word, count in doc: dictionary.dfs[word] += 1 dictionary.num_pos += count return dictionary

Exemplo n.º 2

0

Exibir arquivo

def create_dictionary(self): """ Utility method to generate gensim-style Dictionary directly from the corpus and vocabulary data. """ dictionary = Dictionary() # replace dfs with defaultdict to avoid downstream KeyErrors # uci vocabularies may contain terms that are not used in the document data dictionary.dfs = defaultdict(int) dictionary.id2token = self.id2word dictionary.token2id = dict((v, k) for k, v in iteritems(self.id2word)) dictionary.num_docs = self.num_docs dictionary.num_nnz = self.num_nnz for docno, doc in enumerate(self): if docno % 10000 == 0: logger.info('PROGRESS: processing document %i of %i' % (docno, self.num_docs)) for word, count in doc: dictionary.dfs[word] += 1 dictionary.num_pos += count return dictionary

Exemplo n.º 3

0

Exibir arquivo

Arquivo: models.py Projeto: nanchenchen/script-analysis

def _load_gensim_dictionary(self): setattr(self, '_index2id', {}) gensim_dict = GensimDictionary() gensim_dict.num_docs = self.num_docs gensim_dict.num_pos = self.num_pos gensim_dict.num_nnz = self.num_nnz for dic_token in self.dic_tokens.all(): self._index2id[dic_token.index] = dic_token.id gensim_dict.token2id[dic_token.text] = dic_token.index gensim_dict.dfs[dic_token.index] = dic_token.document_frequency logger.info("Dictionary contains %d tokens" % len(gensim_dict.token2id)) return gensim_dict

Exemplo n.º 4

0

Exibir arquivo

Arquivo: ucicorpus.py Projeto: zjyeon/ODSA-PythonAdvModels

def create_dictionary(self): """Generate :class:`gensim.corpora.dictionary.Dictionary` directly from the corpus and vocabulary data. Return ------ :class:`gensim.corpora.dictionary.Dictionary` Dictionary, based on corpus. Examples -------- .. sourcecode:: pycon >>> from gensim.corpora.ucicorpus import UciCorpus >>> from gensim.test.utils import datapath >>> ucc = UciCorpus(datapath('testcorpus.uci')) >>> dictionary = ucc.create_dictionary() """ dictionary = Dictionary() # replace dfs with defaultdict to avoid downstream KeyErrors # uci vocabularies may contain terms that are not used in the document data dictionary.dfs = defaultdict(int) dictionary.id2token = self.id2word dictionary.token2id = utils.revdict(self.id2word) dictionary.num_docs = self.num_docs dictionary.num_nnz = self.num_nnz for docno, doc in enumerate(self): if docno % 10000 == 0: logger.info('PROGRESS: processing document %i of %i', docno, self.num_docs) for word, count in doc: dictionary.dfs[word] += 1 dictionary.num_pos += count return dictionary

Exemplo n.º 5

0

Exibir arquivo

Arquivo: ucicorpus.py Projeto: RaRe-Technologies/gensim

def create_dictionary(self): """Generate :class:`gensim.corpora.dictionary.Dictionary` directly from the corpus and vocabulary data. Return ------ :class:`gensim.corpora.dictionary.Dictionary` Dictionary, based on corpus. Examples -------- .. sourcecode:: pycon >>> from gensim.corpora.ucicorpus import UciCorpus >>> from gensim.test.utils import datapath >>> ucc = UciCorpus(datapath('testcorpus.uci')) >>> dictionary = ucc.create_dictionary() """ dictionary = Dictionary() # replace dfs with defaultdict to avoid downstream KeyErrors # uci vocabularies may contain terms that are not used in the document data dictionary.dfs = defaultdict(int) dictionary.id2token = self.id2word dictionary.token2id = utils.revdict(self.id2word) dictionary.num_docs = self.num_docs dictionary.num_nnz = self.num_nnz for docno, doc in enumerate(self): if docno % 10000 == 0: logger.info('PROGRESS: processing document %i of %i', docno, self.num_docs) for word, count in doc: dictionary.dfs[word] += 1 dictionary.num_pos += count return dictionary