예제 #1
0
def tratamentoDados(data, escolha):
    # Trata o nome das colunas para trabalhar melhor com os dados
    data.columns = [c.lower().replace(' ', '_') for c in data.columns]
    data.columns = [
        tratar_texto.removerCaracteresEspeciais(c) for c in data.columns
    ]
    data.columns = [tratar_texto.tratarnomecolunas(c) for c in data.columns]
    data = filtro(data.copy())
    # Deleta colunas que atraves de analise foram identificadas como nao uteis
    data = data.drop([
        'exercicio_do_orcamento_ano', 'classificacao_orcamentaria_descricao',
        'natureza_despesa_nome', 'valor_estorno_anulacao_empenho',
        'valor_anulacao_cancelamento_empenho', 'fonte_recurso_cod',
        'elemento_despesa', 'grupo_despesa', 'empenho_sequencial_empenho'
    ],
                     axis='columns')
    # Funcao que separa o rotulo do dataset e retorna as linhas com as naturezas de despesa que so aparecem em 1 empenho
    label, linhas_label_unica = tratar_label.tratarLabel(data)
    label = pd.DataFrame(label)
    # Excluindo as naturezas de despesas que so tem 1 empenho do dataset
    data = data.drop(linhas_label_unica, axis=0)
    data.reset_index(drop=True, inplace=True)
    del linhas_label_unica

    if (escolha == "dropar"):
        return data["analise"]
    if (escolha == "tfidf"):
        # Funcao que limpa o texto retira stopwords acentos pontuacao etc.
        textoTratado = tratar_texto.cleanTextData(data["empenho_historico"])
        # Função que gera o TF-IDF do texto tratado
        tfidf = tratar_texto.calculaTFIDF(textoTratado)
        del textoTratado
        pickles.criarPickle(tfidf, 'tfidf')
        return 0
    # Tratamento dos dados
    data = tratamento_especifico(data.copy())
    # Normalizando colunas numéricas
    min_max_scaler = preprocessing.MinMaxScaler()
    colunas = data.columns
    for col in colunas:
        if (data[col].dtype != "O"):
            min_max_scaler.fit(data[col].values.reshape(-1, 1))
            with open(
                    'pickles/modelos_tratamentos/' + "normalization_" + col +
                    '.pk', 'wb') as fin:
                pickle.dump(min_max_scaler, fin)
            data[col] = pd.DataFrame(
                min_max_scaler.transform(data[col].values.reshape(-1, 1)))

    # Excluindo as colunas que ja foram tratadas
    data = data.drop(['empenho_historico', 'natureza_despesa_cod'],
                     axis='columns')
    if (escolha == "OHE"):
        # Aplicando a estrategia One Hot Encoding
        data = one_hot_encoding.oneHotEncoding(data)
        #data = pd.concat([data,tfidf_beneficiario],axis = 1)
        pickles.criarPickle(data, 'data')
        pickles.criarPickle(label, 'label')
    else:
        return None
예제 #2
0
def tratarDados(data, opcao):
    # Trata o nome das colunas para trabalhar melhor com os dados
    data.columns = [c.lower().replace(' ', '_') for c in data.columns]
    data.columns = [tratar_texto.removerCaracteresEspeciais(c)for c in data.columns]
    data.columns = [tratar_texto.tratarnomecolunas(c)for c in data.columns]
    identificador_empenho = pd.DataFrame(data['empenho_sequencial_empenho'])
    pickles.criarPickle(identificador_empenho,"modelos_tratamentos/identificador_empenho")
    # Deleta colunas que atraves de analise foram identificadas como nao uteis
    data = data.drop(['exercicio_do_orcamento_ano','classificacao_orcamentaria_descricao',
                      'natureza_despesa_nome',
                      'valor_estorno_anulacao_empenho','valor_anulacao_cancelamento_empenho',
                      'fonte_recurso_cod','elemento_despesa','grupo_despesa',
                      'empenho_sequencial_empenho'], axis='columns')
    # rotulo
    label = data['natureza_despesa_cod']
    label = pd.DataFrame(label)
    data = data.drop('natureza_despesa_cod',axis = 1)
    # tfidf
    textoTratado = tratar_texto.cleanTextData(data["empenho_historico"])
    # Função que gera o TF-IDF do texto tratado
    with open('pickles/modelos_tratamentos/tfidf_modelo'+'.pk', 'rb') as pickle_file:
        tfidf_modelo = pickle.load(pickle_file)
    tfidf =  pd.DataFrame.sparse.from_spmatrix(tfidf_modelo.transform(textoTratado))
    del textoTratado
    data = data.drop('empenho_historico',axis = 1)
    # Tratamento dos dados
    data = tratamento_especifico(data.copy())
    # Normalizando colunas numéricas
    colunas = data.columns
    for col in colunas:
        if(data[col].dtype != "O"):
            with open('pickles/modelos_tratamentos/'+"normalization_"+col+'.pk', 'rb') as pickle_file:
                min_max_scaler = pickle.load(pickle_file)
            data[col] = pd.DataFrame(min_max_scaler.transform(data[col].values.reshape(-1,1)))
    # OHE
    data = one_hot_encoding.aplyOHE(data)
    if(opcao == "OHE"):
        return data, label
    elif(opcao == "tfidf"):
        return tfidf, label
    else:
        aux = sparse.hstack((csr_matrix(data),csr_matrix(tfidf) ))
        data =  pd.DataFrame.sparse.from_spmatrix(aux)
        return data, label
예제 #3
0
def tratarDados(data, opcao = "visao dupla"):
    # Trata o nome das colunas para trabalhar melhor com os dados
    data.columns = [c.lower().replace(' ', '_') for c in data.columns]
    data.columns = [tratar_texto.removerCaracteresEspeciais(c)for c in data.columns]
    data.columns = [tratar_texto.tratarnomecolunas(c)for c in data.columns]
    identificador_empenho = pd.DataFrame(data['empenho_sequencial_empenho'])
    pickles.criarPickle(identificador_empenho,"modelos_tratamentos/identificador_empenho")
    # Deleta colunas que atraves de analise foram identificadas como nao uteis
    data = data.drop(['exercicio_do_orcamento_ano','classificacao_orcamentaria_descricao',
                      'natureza_despesa_nome',
                      'valor_estorno_anulacao_empenho','valor_anulacao_cancelamento_empenho',
                      'fonte_recurso_cod','elemento_despesa','grupo_despesa',
                      'empenho_sequencial_empenho'], axis='columns')
    # rotulo
    label = data['natureza_despesa_cod']
    label = pd.DataFrame(label)
    if(opcao == "Modelo 2"):
        opcao = "OHE"
    else:
        data = data.drop('natureza_despesa_cod',axis = 1)
    # tfidf
    textoTratado = tratar_texto.cleanTextData(data["empenho_historico"])
    # Função que gera o TF-IDF do texto tratado
    with open('pickles/modelos_tratamentos/tfidf_modelo'+'.pk', 'rb') as pickle_file:
        tfidf_modelo = pickle.load(pickle_file)
    tfidf =  pd.DataFrame.sparse.from_spmatrix(tfidf_modelo.transform(textoTratado))
    del textoTratado
    data = data.drop('empenho_historico',axis = 1)
    # Tratamento dos dados
    data = tratamento_especifico(data.copy())
    # Tratando o beneficiario nome
    nome = [""]*data.shape[0]
    for i in range(data.shape[0]):
        if(data['pessoa_juridica'].iloc[i]):
            nome[i] = data["beneficiario_nome"].iloc[i]
        else:
            nome[i] = "pessoafisica"
    data["beneficiario_nome"] = nome
    # Tratando o campo beneficiario nome como texto livre e fazendo TFIDF
    texto_beneficiario = tratar_texto.cleanTextData(data["beneficiario_nome"])
    with open('pickles/modelos_tratamentos/tfidf_beneficiario'+'.pk', 'rb') as pickle_file:
        tfidf_beneficiario = pickle.load(pickle_file)
    data_cv = tfidf_beneficiario.transform(texto_beneficiario)
    tfidf_beneficiario = pd.DataFrame.sparse.from_spmatrix(data_cv, columns = tfidf_beneficiario.get_feature_names())
    data = data.drop("beneficiario_nome", axis='columns')
    pickles.criarPickle(tfidf_beneficiario,"dados_tfidf_beneficiario")
    # Normalizando colunas numéricas
    colunas = data.columns
    for col in colunas:
        if(data[col].dtype != "O"):
            with open('pickles/modelos_tratamentos/'+"normalization_"+col+'.pk', 'rb') as pickle_file:
                min_max_scaler = pickle.load(pickle_file)
            data[col] = pd.DataFrame(min_max_scaler.transform(data[col].values.reshape(-1,1)))
    # OHE
    if(opcao == "OHE"):
        data = one_hot_encoding.aplyOHE(data)
        tfidf_beneficiario = pickles.carregarPickle("dados_tfidf_beneficiario")
        data = pd.concat([data, tfidf_beneficiario], axis = 1)
        return data, label
    elif(opcao == "tfidf"):
        return tfidf, label
    else:
        data = one_hot_encoding.aplyOHE(data)
        tfidf_beneficiario = pickles.carregarPickle("dados_tfidf_beneficiario")
        data = pd.concat([data, tfidf_beneficiario], axis = 1)
        data = sparse.hstack((csr_matrix(data),csr_matrix(tfidf) ))
        data =  pd.DataFrame.sparse.from_spmatrix(data)
        return data, label
예제 #4
0
from sklearn.metrics import f1_score
from modelos import supportVectorMachine
from preparacaoDados import tratamentoDados
from sklearn.neighbors import KNeighborsClassifier
from tratarDados import refinamento_hiperparametros
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
#sys.argv = ["stacking.py","treino"]

data = pd.read_csv("dadosTCE.csv",low_memory = False)[:500]
data.drop("Empenho (Sequencial Empenho)(EOF).1", axis = 1, inplace = True)
colunas = data.columns
data.columns = [c.lower().replace(' ', '_') for c in data.columns]
data.columns = [tratar_texto.removerCaracteresEspeciais(c)for c in data.columns]
data.columns = [tratar_texto.tratarnomecolunas(c)for c in data.columns]
data = filtro(data.copy())
data.columns = colunas
label = data["Natureza Despesa (Cod)(EOF)"]
# Retirando naturezas com numero de empenhos menor ou igual a x
label, index_label_x_empenhos = tratar_label.label_elemento(label, 6)
data.drop(index_label_x_empenhos,inplace = True, axis = 0)
data.reset_index(drop = True, inplace = True)
del index_label_x_empenhos
if(sys.argv[1]=="treino"):
    # Separando 40% dos dados para selecao de hiperparametros
    data, data_teste, label, label_teste = train_test_split(data, label, test_size = 0.6,stratify = label, random_state = 10)
    del data_teste, label_teste
    # Resetando os indexes dos dados
    data.reset_index(drop = True, inplace = True)
    label.reset_index(drop = True, inplace = True)