Exemplos de DataIO.read_gensim_corpus em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: data_io

Classe / Tipo: DataIO

Método / Função: read_gensim_corpus

Exemplos em hotexamples.com: 3

DataIO.read_gensim_corpus em Python - 3 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de data_io.DataIO.read_gensim_corpus em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

DataIO(15)

save_model(6)

get_salaries(5)

get_prediction(4)

save_prediction(4)

write_submission(3)

get_le_features(3)

make_counts(2)

update(2)

compare_valid_pred(2)

read_gensim_corpus(2)

is_log(2)

get_features(2)

export_data(1)

parse_config_file(1)

load_all(1)

load_partial(1)

join_features(1)

close(1)

ic_populate_from_rebound(1)

ic_populate(1)

get_data(1)

import_data(1)

Métodos Frequentes

DataIO (15)

save_model (6)

get_salaries (5)

get_prediction (4)

save_prediction (4)

write_submission (3)

get_le_features (3)

make_counts (2)

update (2)

compare_valid_pred (2)

Métodos Frequentes

read_gensim_corpus (2)

is_log (2)

get_features (2)

export_data (1)

parse_config_file (1)

load_all (1)

load_partial (1)

join_features (1)

close (1)

ic_populate_from_rebound (1)

ic_populate (1)

get_data (1)

import_data (1)

Métodos Frequentes

ic_populate (1)

get_data (1)

import_data (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: submission_extra_gensim.py Projeto: ageek/kaggle-job-salary

from data_io import DataIO from sklearn.decomposition import RandomizedPCA from sklearn.ensemble import ExtraTreesRegressor from sklearn.base import clone from sklearn.cross_validation import cross_val_score import numpy as np dio = DataIO("Settings.json") title_corpus = dio.read_gensim_corpus("train_title_nltk_filtered.corpus.mtx") pca = RandomizedPCA(random_state=3465343) salaries = dio.get_salaries("train", log=True) columns = ["Category", "ContractTime", "ContractType"] le_features = dio.get_le_features(columns, "train_full") extra_features = dio.get_features(columns, "train", le_features) #extra_valid_features = dio.get_features(columns, "valid", le_features) param = "RandomizedPCA title 200 Fulldescription 200 " + ",".join(columns) print map(len, extra_features) extra_features = map(lambda x: np.reshape(np.array(x),(len(x),1)),extra_features) print type(title_corpus) print title_corpus.shape title_pca = clone(pca) title_pca.set_params(n_components=200) title_corpus_pca = title_pca.fit_transform(title_corpus)

Exemplo n.º 2

0

Exibir arquivo

Arquivo: submission_extra_gensim.py Projeto: oasic/kaggle-job-salary

from data_io import DataIO from sklearn.decomposition import RandomizedPCA from sklearn.ensemble import ExtraTreesRegressor from sklearn.base import clone from sklearn.cross_validation import cross_val_score import numpy as np dio = DataIO("Settings.json") title_corpus = dio.read_gensim_corpus("train_title_nltk_filtered.corpus.mtx") pca = RandomizedPCA(random_state=3465343) salaries = dio.get_salaries("train", log=True) columns = ["Category", "ContractTime", "ContractType"] le_features = dio.get_le_features(columns, "train_full") extra_features = dio.get_features(columns, "train", le_features) #extra_valid_features = dio.get_features(columns, "valid", le_features) param = "RandomizedPCA title 200 Fulldescription 200 " + ",".join(columns) print map(len, extra_features) extra_features = map(lambda x: np.reshape(np.array(x), (len(x), 1)), extra_features) print type(title_corpus) print title_corpus.shape title_pca = clone(pca) title_pca.set_params(n_components=200) title_corpus_pca = title_pca.fit_transform(title_corpus) print type(title_corpus_pca)

Exemplo n.º 3

0

Exibir arquivo

from sklearn.grid_search import GridSearchCV from sklearn.pipeline import Pipeline from pprint import pprint from time import time from sklearn.ensemble import ExtraTreesRegressor dio = DataIO("Settings_loc5.json") logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) salaries = dio.get_salaries("train", log=True) #title_corpus_csc = dio.read_gensim_corpus("train_title_nltk_filtered.corpus.mtx") #desc_corpus_csc = dio.read_gensim_corpus("train_desc_nltk_filtered.corpus.mtx") locraw_corpus_csc = dio.read_gensim_corpus( "train_locraw_nltk_filtered.corpus.mtx") #print title_corpus_csc.shape print locraw_corpus_csc.shape pipeline = Pipeline([ ('pca', RandomizedPCA(random_state=3465343)), ('trees', ExtraTreesRegressor(min_samples_split=2, n_estimators=10, n_jobs=4)), ]) parameters = { 'pca__n_components': range(100, 601, 100), } metric = dio.error_metric