Python Dictionary.corpus Exemples

Langage de programmation: Python

Espace de nommage/Pack: gensim.corpora.dictionary

Class/Type: Dictionary

Méthode/Fonction: corpus

Exemples au hotexamples.com: 1

Python Dictionary.corpus - 1 exemples trouvés. Ce sont les exemples réels les mieux notés de gensim.corpora.dictionary.Dictionary.corpus extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

Dictionary(30)

items(30)

save(30)

doc2bow(30)

filter_extremes(30)

load(30)

add_documents(30)

get(23)

load_from_text(19)

from_corpus(16)

doc2idx(12)

compactify(9)

save_as_text(8)

keys(6)

token2id(4)

itervalues(4)

id2token(4)

filter_tokens(3)

values(3)

merge_with(2)

num_docs(2)

num_nnz(2)

num_pos(2)

dfs(2)

iteritems(1)

from_documents(1)

filter_n_most_frequent(1)

filterExtremes(1)

patch_with_special_tokens(1)

corpus_id2orig_id(1)

corpus(1)

Méthodes fréquemment utilisées

Dictionary (30)

items (30)

save (30)

doc2bow (30)

filter_extremes (30)

load (30)

add_documents (30)

get (23)

load_from_text (19)

from_corpus (16)

Méthodes fréquemment utilisées

doc2idx (12)

compactify (9)

save_as_text (8)

keys (6)

token2id (4)

itervalues (4)

id2token (4)

filter_tokens (3)

values (3)

merge_with (2)

num_docs (2)

num_nnz (2)

num_pos (2)

dfs (2)

iteritems (1)

from_documents (1)

filter_n_most_frequent (1)

filterExtremes (1)

patch_with_special_tokens (1)

corpus_id2orig_id (1)

Méthodes fréquemment utilisées

num_docs (2)

num_nnz (2)

num_pos (2)

dfs (2)

iteritems (1)

from_documents (1)

filter_n_most_frequent (1)

filterExtremes (1)

patch_with_special_tokens (1)

corpus_id2orig_id (1)

corpus (1)

Méthodes fréquemment utilisées

corpus (1)

Exemple #1

0

Afficher le fichier

Fichier : preprocess.py Projet : kensk8er/MsTweetAnalysis

def preprocess_corpora(corpora, stopwords, allowed_pos, max_doc=float('inf'), no_above=0.5, no_below=1, keep_n=None): """ :rtype : gensim.corpora.dictionary.Dictionary :param corpora: :param stopwords: :param allowed_pos: :param max_doc: :return: """ logging.info('Lemmatizing the corpora...') count = 0 corpus_num = len(corpora) processed_corpora = [] corpus_id2orig_id = [] for index, corpus in corpora.items(): count += 1 if count > max_doc: break if corpus is None: # skip if corpus is None continue print '\r', count, '/', corpus_num, cleaned_corpus = clean_text(corpus) # delete irrelevant characters corpus = [] tokens = lemmatize(content=cleaned_corpus, allowed_tags=allowed_pos) for token in tokens: word, pos = token.split('/') corpus.append(word) # convert compound word into one token corpus = convert_compound(corpus) # filter stop words, long words, and non-english words corpus = [w for w in corpus if not w in stopwords and 2 <= len(w) <= 15 and w.islower()] processed_corpora.append(corpus) corpus_id2orig_id.append(index) print '\n' logging.info('Creating dictionary and corpus...') dictionary = Dictionary(processed_corpora) dictionary.corpus_id2orig_id = corpus_id2orig_id logging.info('Filtering unimportant terms...') dictionary.filter_extremes(no_below=no_below, no_above=no_above, keep_n=keep_n) dictionary.compactify() logging.info('Generating corpus...') dictionary.corpus = [dictionary.doc2bow(corpus) for corpus in processed_corpora] dictionary.id2token = revdict(dictionary.token2id) return dictionary