def tratamentoDados(data, escolha): # Trata o nome das colunas para trabalhar melhor com os dados data.columns = [c.lower().replace(' ', '_') for c in data.columns] data.columns = [ tratar_texto.removerCaracteresEspeciais(c) for c in data.columns ] data.columns = [tratar_texto.tratarnomecolunas(c) for c in data.columns] data = filtro(data.copy()) # Deleta colunas que atraves de analise foram identificadas como nao uteis data = data.drop([ 'exercicio_do_orcamento_ano', 'classificacao_orcamentaria_descricao', 'natureza_despesa_nome', 'valor_estorno_anulacao_empenho', 'valor_anulacao_cancelamento_empenho', 'fonte_recurso_cod', 'elemento_despesa', 'grupo_despesa', 'empenho_sequencial_empenho' ], axis='columns') # Funcao que separa o rotulo do dataset e retorna as linhas com as naturezas de despesa que so aparecem em 1 empenho label, linhas_label_unica = tratar_label.tratarLabel(data) label = pd.DataFrame(label) # Excluindo as naturezas de despesas que so tem 1 empenho do dataset data = data.drop(linhas_label_unica, axis=0) data.reset_index(drop=True, inplace=True) del linhas_label_unica if (escolha == "dropar"): return data["analise"] if (escolha == "tfidf"): # Funcao que limpa o texto retira stopwords acentos pontuacao etc. textoTratado = tratar_texto.cleanTextData(data["empenho_historico"]) # Função que gera o TF-IDF do texto tratado tfidf = tratar_texto.calculaTFIDF(textoTratado) del textoTratado pickles.criarPickle(tfidf, 'tfidf') return 0 # Tratamento dos dados data = tratamento_especifico(data.copy()) # Normalizando colunas numéricas min_max_scaler = preprocessing.MinMaxScaler() colunas = data.columns for col in colunas: if (data[col].dtype != "O"): min_max_scaler.fit(data[col].values.reshape(-1, 1)) with open( 'pickles/modelos_tratamentos/' + "normalization_" + col + '.pk', 'wb') as fin: pickle.dump(min_max_scaler, fin) data[col] = pd.DataFrame( min_max_scaler.transform(data[col].values.reshape(-1, 1))) # Excluindo as colunas que ja foram tratadas data = data.drop(['empenho_historico', 'natureza_despesa_cod'], axis='columns') if (escolha == "OHE"): # Aplicando a estrategia One Hot Encoding data = one_hot_encoding.oneHotEncoding(data) #data = pd.concat([data,tfidf_beneficiario],axis = 1) pickles.criarPickle(data, 'data') pickles.criarPickle(label, 'label') else: return None
def tratarDados(data, opcao): # Trata o nome das colunas para trabalhar melhor com os dados data.columns = [c.lower().replace(' ', '_') for c in data.columns] data.columns = [tratar_texto.removerCaracteresEspeciais(c)for c in data.columns] data.columns = [tratar_texto.tratarnomecolunas(c)for c in data.columns] identificador_empenho = pd.DataFrame(data['empenho_sequencial_empenho']) pickles.criarPickle(identificador_empenho,"modelos_tratamentos/identificador_empenho") # Deleta colunas que atraves de analise foram identificadas como nao uteis data = data.drop(['exercicio_do_orcamento_ano','classificacao_orcamentaria_descricao', 'natureza_despesa_nome', 'valor_estorno_anulacao_empenho','valor_anulacao_cancelamento_empenho', 'fonte_recurso_cod','elemento_despesa','grupo_despesa', 'empenho_sequencial_empenho'], axis='columns') # rotulo label = data['natureza_despesa_cod'] label = pd.DataFrame(label) data = data.drop('natureza_despesa_cod',axis = 1) # tfidf textoTratado = tratar_texto.cleanTextData(data["empenho_historico"]) # Função que gera o TF-IDF do texto tratado with open('pickles/modelos_tratamentos/tfidf_modelo'+'.pk', 'rb') as pickle_file: tfidf_modelo = pickle.load(pickle_file) tfidf = pd.DataFrame.sparse.from_spmatrix(tfidf_modelo.transform(textoTratado)) del textoTratado data = data.drop('empenho_historico',axis = 1) # Tratamento dos dados data = tratamento_especifico(data.copy()) # Normalizando colunas numéricas colunas = data.columns for col in colunas: if(data[col].dtype != "O"): with open('pickles/modelos_tratamentos/'+"normalization_"+col+'.pk', 'rb') as pickle_file: min_max_scaler = pickle.load(pickle_file) data[col] = pd.DataFrame(min_max_scaler.transform(data[col].values.reshape(-1,1))) # OHE data = one_hot_encoding.aplyOHE(data) if(opcao == "OHE"): return data, label elif(opcao == "tfidf"): return tfidf, label else: aux = sparse.hstack((csr_matrix(data),csr_matrix(tfidf) )) data = pd.DataFrame.sparse.from_spmatrix(aux) return data, label
def tratarDados(data, opcao = "visao dupla"): # Trata o nome das colunas para trabalhar melhor com os dados data.columns = [c.lower().replace(' ', '_') for c in data.columns] data.columns = [tratar_texto.removerCaracteresEspeciais(c)for c in data.columns] data.columns = [tratar_texto.tratarnomecolunas(c)for c in data.columns] identificador_empenho = pd.DataFrame(data['empenho_sequencial_empenho']) pickles.criarPickle(identificador_empenho,"modelos_tratamentos/identificador_empenho") # Deleta colunas que atraves de analise foram identificadas como nao uteis data = data.drop(['exercicio_do_orcamento_ano','classificacao_orcamentaria_descricao', 'natureza_despesa_nome', 'valor_estorno_anulacao_empenho','valor_anulacao_cancelamento_empenho', 'fonte_recurso_cod','elemento_despesa','grupo_despesa', 'empenho_sequencial_empenho'], axis='columns') # rotulo label = data['natureza_despesa_cod'] label = pd.DataFrame(label) if(opcao == "Modelo 2"): opcao = "OHE" else: data = data.drop('natureza_despesa_cod',axis = 1) # tfidf textoTratado = tratar_texto.cleanTextData(data["empenho_historico"]) # Função que gera o TF-IDF do texto tratado with open('pickles/modelos_tratamentos/tfidf_modelo'+'.pk', 'rb') as pickle_file: tfidf_modelo = pickle.load(pickle_file) tfidf = pd.DataFrame.sparse.from_spmatrix(tfidf_modelo.transform(textoTratado)) del textoTratado data = data.drop('empenho_historico',axis = 1) # Tratamento dos dados data = tratamento_especifico(data.copy()) # Tratando o beneficiario nome nome = [""]*data.shape[0] for i in range(data.shape[0]): if(data['pessoa_juridica'].iloc[i]): nome[i] = data["beneficiario_nome"].iloc[i] else: nome[i] = "pessoafisica" data["beneficiario_nome"] = nome # Tratando o campo beneficiario nome como texto livre e fazendo TFIDF texto_beneficiario = tratar_texto.cleanTextData(data["beneficiario_nome"]) with open('pickles/modelos_tratamentos/tfidf_beneficiario'+'.pk', 'rb') as pickle_file: tfidf_beneficiario = pickle.load(pickle_file) data_cv = tfidf_beneficiario.transform(texto_beneficiario) tfidf_beneficiario = pd.DataFrame.sparse.from_spmatrix(data_cv, columns = tfidf_beneficiario.get_feature_names()) data = data.drop("beneficiario_nome", axis='columns') pickles.criarPickle(tfidf_beneficiario,"dados_tfidf_beneficiario") # Normalizando colunas numéricas colunas = data.columns for col in colunas: if(data[col].dtype != "O"): with open('pickles/modelos_tratamentos/'+"normalization_"+col+'.pk', 'rb') as pickle_file: min_max_scaler = pickle.load(pickle_file) data[col] = pd.DataFrame(min_max_scaler.transform(data[col].values.reshape(-1,1))) # OHE if(opcao == "OHE"): data = one_hot_encoding.aplyOHE(data) tfidf_beneficiario = pickles.carregarPickle("dados_tfidf_beneficiario") data = pd.concat([data, tfidf_beneficiario], axis = 1) return data, label elif(opcao == "tfidf"): return tfidf, label else: data = one_hot_encoding.aplyOHE(data) tfidf_beneficiario = pickles.carregarPickle("dados_tfidf_beneficiario") data = pd.concat([data, tfidf_beneficiario], axis = 1) data = sparse.hstack((csr_matrix(data),csr_matrix(tfidf) )) data = pd.DataFrame.sparse.from_spmatrix(data) return data, label
from sklearn.metrics import f1_score from modelos import supportVectorMachine from preparacaoDados import tratamentoDados from sklearn.neighbors import KNeighborsClassifier from tratarDados import refinamento_hiperparametros from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import StratifiedKFold from sklearn.model_selection import train_test_split #sys.argv = ["stacking.py","treino"] data = pd.read_csv("dadosTCE.csv",low_memory = False)[:500] data.drop("Empenho (Sequencial Empenho)(EOF).1", axis = 1, inplace = True) colunas = data.columns data.columns = [c.lower().replace(' ', '_') for c in data.columns] data.columns = [tratar_texto.removerCaracteresEspeciais(c)for c in data.columns] data.columns = [tratar_texto.tratarnomecolunas(c)for c in data.columns] data = filtro(data.copy()) data.columns = colunas label = data["Natureza Despesa (Cod)(EOF)"] # Retirando naturezas com numero de empenhos menor ou igual a x label, index_label_x_empenhos = tratar_label.label_elemento(label, 6) data.drop(index_label_x_empenhos,inplace = True, axis = 0) data.reset_index(drop = True, inplace = True) del index_label_x_empenhos if(sys.argv[1]=="treino"): # Separando 40% dos dados para selecao de hiperparametros data, data_teste, label, label_teste = train_test_split(data, label, test_size = 0.6,stratify = label, random_state = 10) del data_teste, label_teste # Resetando os indexes dos dados data.reset_index(drop = True, inplace = True) label.reset_index(drop = True, inplace = True)