Ejemplo n.º 1
0
#                             }, inplace=True)

# df_local = df_local.append(df_local_2016)

# df_local = df_local.drop_duplicates(subset=['CODIGO_LOCAL_OFERTA', 'CODIGO_IES', 'CODIGO_CURSO'],ignore_index=True)
# df_local.reset_index(drop=True, inplace=True)

# df_local.to_csv('censo_superior_local_oferta_com_missing.csv', index=False)

# profile = pr(df_local, title='Censo Escolar da Educação Superior: Local de Oferta', minimal=True, html={'style':{'full_width':True}})
# profile.to_file("profiling_censo_educacao_superior_local_oferta_com_missing.html")

df_local = pd.read_csv("censo_superior_local_oferta_com_missing.csv",
                       sep=",",
                       encoding="ISO-8859-1")

df_local = df_local.dropna()
df_local.reset_index(drop=True, inplace=True)

df_local.to_csv('censo_superior_local_oferta_sem_missing.csv', index=False)

profile = pr(df_local,
             title='Censo Escolar da Educação Superior: Local de Oferta',
             minimal=True,
             html={'style': {
                 'full_width': True
             }})
profile.to_file(
    "profiling_censo_educacao_superior_local_oferta_sem_missing.html")
Ejemplo n.º 2
0
df_cpc_2016.rename(columns={'Ano': 'ANO_CPC',
                            'Código da IES': 'CODIGO_IES',
                            'Código do Curso': 'CODIGO_CURSO',
                            'CPC Faixa': 'CPC_FAIXA'}, inplace=True)
                            
df_cpc_2015 = df_cpc_2015[['Ano','Código da IES','Código do Curso','CPC Faixa']]

df_cpc_2015.rename(columns={'Ano': 'ANO_CPC',
                            'Código da IES': 'CODIGO_IES',
                            'Código do Curso': 'CODIGO_CURSO',
                            'CPC Faixa': 'CPC_FAIXA'}, inplace=True)
                            
df_cpc = df_cpc_2018
df_cpc = df_cpc.append(df_cpc_2017, ignore_index=True)
df_cpc = df_cpc.append(df_cpc_2016, ignore_index=True)
df_cpc = df_cpc.append(df_cpc_2015, ignore_index=True)

df_cpc.drop_duplicates(subset=['CODIGO_IES', 'CODIGO_CURSO'],ignore_index=True, inplace=True)

df_cpc.to_csv('cpc.csv', index=False)

profile = pr(df_cpc, title='cpc', minimal=True, html={'style':{'full_width':True}})
profile.to_file("cpc.html")

# profile = pr(df_cpc_2017, title='cpc de 2017', minimal=True, html={'style':{'full_width':True}})
# profile.to_file("cpc_2017.html")

# profile = pr(df_cpc_2016, title='cpc de 2016', minimal=True, html={'style':{'full_width':True}})
# profile.to_file("cpc_2016.html")

df_enade.drop_duplicates(ignore_index=True, inplace=True)
df_enade.reset_index(drop=True, inplace=True)

df_enade = df_enade.loc[df_enade['PRESENCA_ENADE']=='555']
df_enade.drop('PRESENCA_ENADE', axis=1, inplace=True)

df_enade = df_enade.loc[(df_enade['CODIGO_IES'] != '708') & (df_enade['CODIGO_IES'] != '18210')]

df_enade.dropna(inplace=True)
df_enade.reset_index(drop=True, inplace=True)

notas = []

# for i,j in df_enade.iterrows():
#     j['NOTA_BRUTA_ENADE'] = str(j['NOTA_BRUTA_ENADE']).replace(',','.')

for i, j in df_enade.iterrows():
    nota = str(j['NOTA_BRUTA_ENADE']).replace(',','.')
    notas.append(nota)

df_enade.drop('NOTA_BRUTA_ENADE', axis=1, inplace=True)

df_enade.insert(1, 'NOTA_BRUTA_ENADE', notas)

df_enade.to_csv('enade_final.csv', index=False)

# df_enade = pd.read_csv("enade_presencas_validas_sem_missing_com_escopo_maior.csv", sep=",", encoding = "ISO-8859-1", dtype='unicode')

profile = pr(df_enade, title='Analisando dados sobre as inscrições válidas do ENADE de 2016, 2017 e 2018 de ests de cursos de todo o Brasil, sem valores faltantes', minimal=True, html={'style':{'full_width':True}})
profile.to_file("enade_final.html")
import pandas as pd
from pandas_profiling import ProfileReport as pr

# pd.set_option("max_columns", None)
# pd.set_option("max_rows", None)

# df_enade = pd.read_csv("enade_presencas_validas_sem_missing_com_escopo_menor_n.csv", sep=",", encoding="ISO-8859-1", dtype='unicode')
df_enade = pd.read_csv("enade_presencas_validas_sem_missing_com_escopo_maior.csv", sep=",", encoding="ISO-8859-1", dtype='unicode')
df_ies = pd.read_csv("censo_superior_ies.csv", sep=",", encoding="ISO-8859-1", dtype='unicode')

df_ies.drop('CATEGORIA_ADMINISTRATIVA_IES', axis=1, inplace=True)
df_ies.drop('ORGANIZACAO_ACADEMICA_IES', axis=1, inplace=True)
df_ies.drop('CODIGO_REGIAO_IES', axis=1, inplace=True)
df_ies.drop('CODIGO_UNIDADE_FEDERATIVA_IES', axis=1, inplace=True)
df_ies.drop('CODIGO_MUNICIPIO_IES', axis=1, inplace=True)

print("Começando join")
df_final = df_enade.join(df_ies.set_index('CODIGO_IES'), on='CODIGO_IES')
print("Finalizando join")

df_final.to_csv('enade_sem_missing_com_escopo_maior_ies.csv', index=False, encoding="ISO-8859-1")

profile = pr(df_final, title='ENADE + IES', minimal=True, html={'style':{'full_width':True}})
profile.to_file("profiling_enade_sem_missing_com_escopo_maior_ies.html")
import pandas as pd
from pandas_profiling import ProfileReport as pr
import os


for file in os.listdir("D:\DataManagement-2\DS4C_DataSet"):
    csv_file_path = "D:\DataManagement-2\DS4C_DataSet\"+file
    df = pd.read_csv()
    profile = pr(df, title= file + ' PROFILING REPORT' , explorative=True)
    output_filename = 'D:\DataManagement-2\Data_Profiling\ ' + file[:-4] + '.html'
    profile.to_file(output_filename)
Ejemplo n.º 6
0
df_igc_2016.rename(columns={'nu_ano':'ANO',
                            'co_ies': 'CODIGO_IES',
                            'fx_igc': 'IGC_FAIXA'}, inplace=True)
                            
df_igc_2015 = conjunto_2015[0][['Ano','Cód.IES','IGC (faixa)']]
df_igc_2015 = df_igc_2015.append(conjunto_2015[1][['Ano','Cód.IES','IGC (faixa)']], ignore_index=True)
df_igc_2015 = df_igc_2015.append(conjunto_2015[2][['Ano','Cód.IES','IGC (faixa)']], ignore_index=True)

df_igc_2015.rename(columns={'Ano':'ANO',
                            'Cód.IES': 'CODIGO_IES',
                            'IGC (faixa)': 'IGC_FAIXA'}, inplace=True)

df_igc = df_igc_2018
df_igc = df_igc.append(df_igc_2017, ignore_index=True)
df_igc = df_igc.append(df_igc_2016, ignore_index=True)
df_igc = df_igc.append(df_igc_2015, ignore_index=True)

df_igc.drop_duplicates(subset=['CODIGO_IES'],ignore_index=True, inplace=True)

df_igc.to_csv('igc_final.csv', index=False)

profile = pr(df_igc, title='IGC', minimal=True, html={'style':{'full_width':True}})
profile.to_file("igc_final.html")

# profile = pr(df_igc_2017, title='IGC de 2017', minimal=True, html={'style':{'full_width':True}})
# profile.to_file("igc_2017.html")

# profile = pr(df_igc_2016, title='IGC de 2016', minimal=True, html={'style':{'full_width':True}})
# profile.to_file("igc_2016.html")

                            'VL_DES_PESSOAL_ENCARGO': 'VALOR_DESPESA_PESSOAL_ENCARGO_IES',
                            'VL_DES_CUSTEIO': 'VALOR_DESPESA_CUSTEIO_IES',
                            'VL_DES_INVESTIMENTO': 'VALOR_DESPESA_INVESTIMENTO_IES',
                            'VL_DES_PESQUISA': 'VALOR_DESPESA_PESQUISA_IES',
                            'VL_DES_OUTRAS': 'VALOR_OUTRA_DESPESA_IES',

                            'IN_ACESSO_PORTAL_CAPES': 'INDICADOR_ACESSO_PORTAL_CAPES_IES',
                            'IN_ASSINA_OUTRA_BASE': 'INDICADOR_ASSINA_OUTRA_BASE_IES',
                            'IN_REPOSITORIO_INSTITUCIONAL': 'INDICADOR_REPOSITORIO_INSTITUCIONAL_IES',
                            'IN_BUSCA_INTEGRADA': 'INDICADOR_BUSCA_INTEGRADA_IES',
                            'IN_SERVICO_INTERNET': 'INDICADOR_SERVICO_INTERNET_IES',
                            'IN_PARTICIPA_REDE_SOCIAL': 'INDICADOR_PARTICIPACAO_REDE_SOCIAL_IES',
                            'IN_CATALOGO_ONLINE': 'INDICADOR_CATALOGO_ONLINE_IES',
                            'IN_REFERENTE': 'ENTIDADE_REFERENTE_DADO_FINANCEIRO_IES'
                            
                            }, inplace=True)

df_ies = df_ies.append(df_ies_2016, ignore_index=True)

df_ies = df_ies.drop_duplicates(subset=['CODIGO_IES'], ignore_index=True)
df_ies.reset_index(drop=True, inplace=True)

df_ies['SIGLA_IES'].fillna('SEM SIGLA', inplace=True)

df_ies.to_csv('censo_superior_ies.csv', index=False)

# df_ies = pd.read_csv("censo_superior_ies.csv", sep=",", encoding = "ISO-8859-1", dtype="unicode")

profile = pr(df_ies, title='Censo Escolar da Educação Superior: IES', minimal=True, html={'style':{'full_width':True}})
profile.to_file("profiling_censo_educacao_superior_ies_1.html")
print("Finalizando join")

df_final = df_final[[
    'ANO_CENSO_IES', 'CODIGO_IES', 'ANO_IGC', 'IGC_FAIXA', 'NOME_IES',
    'SIGLA_IES', 'CODIGO_MANTENEDORA_IES', 'NOME_MANTENEDORA_IES',
    'CATEGORIA_ADMINISTRATIVA_IES', 'ORGANIZACAO_ACADEMICA_IES',
    'CODIGO_REGIAO_IES', 'CODIGO_UNIDADE_FEDERATIVA_IES',
    'CODIGO_MUNICIPIO_IES', 'LOCALIZACAO_CAPITAL_IES',
    'QTDE_TOTAL_TECNICOS_IES', 'QTDE_TECNICOS_FUNDAMENTAL_IES',
    'QTDE_TECNICOS_MEDIO_IES', 'QTDE_TECNICOS_SUPERIOR_IES',
    'QTDE_TECNICOS_POS_IES', 'ACESSO_PORTAL_CAPES_IES',
    'REPOSITORIO_INSTITUCIONAL_IES', 'BUSCA_INTEGRADA_IES',
    'SERVICO_INTERNET_IES', 'PARTICIPACAO_REDE_SOCIAL_IES',
    'CATALOGO_ONLINE_IES', 'QTDE_PERIODICOS_ELETRONICOS_IES',
    'QTDE_LIVROS_ELETRONICOS_IES', 'REFERENCIA_DADO_FINANCEIRO_IES',
    'RECEITA_PROPRIA_IES', 'RECEITA_TRANSFERENCIA_IES', 'OUTRA_RECEITA_IES',
    'DESPESA_PESSOAL_DOCENTE_IES', 'DESPESA_PESSOAL_TECNICO_IES',
    'DESPESA_PESSOAL_ENCARGO_IES', 'DESPESA_CUSTEIO_IES',
    'DESPESA_INVESTIMENTO_IES', 'DESPESA_PESQUISA_IES', 'OUTRA_DESPESA_IES'
]]
# df_final = df_final[['ANO_CENSO_IES','CODIGO_IES','ANO_IGC','IGC_FAIXA','NOME_IES','SIGLA_IES','CODIGO_MANTENEDORA_IES','NOME_MANTENEDORA_IES','CATEGORIA_ADMINISTRATIVA_IES','ORGANIZACAO_ACADEMICA_IES','CODIGO_REGIAO_IES','CODIGO_UNIDADE_FEDERATIVA_IES','CODIGO_MUNICIPIO_IES','LOCALIZACAO_CAPITAL_IES','QTDE_TOTAL_TECNICOS_IES','QTDE_TECNICOS_FUNDAMENTAL_FEM_IES','QTDE_TECNICOS_FUNDAMENTAL_MASC_IES','QTDE_TECNICOS_MEDIO_FEM_IES','QTDE_TECNICOS_MEDIO_MASC_IES','QTDE_TECNICOS_SUPERIOR_FEM_IES','QTDE_TECNICOS_SUPERIOR_MASC_IES','QTDE_TECNICOS_POS_FEM_IES','QTDE_TECNICOS_POS_MASC_IES','ACESSO_PORTAL_CAPES_IES','REPOSITORIO_INSTITUCIONAL_IES','BUSCA_INTEGRADA_IES','SERVICO_INTERNET_IES','PARTICIPACAO_REDE_SOCIAL_IES','CATALOGO_ONLINE_IES','QTDE_PERIODICOS_ELETRONICOS_IES','QTDE_LIVROS_ELETRONICOS_IES','REFERENCIA_DADO_FINANCEIRO_IES','RECEITA_PROPRIA_IES','RECEITA_TRANSFERENCIA_IES','OUTRA_RECEITA_IES','DESPESA_PESSOAL_DOCENTE_IES','DESPESA_PESSOAL_TECNICO_IES','DESPESA_PESSOAL_ENCARGO_IES','DESPESA_CUSTEIO_IES','DESPESA_INVESTIMENTO_IES','DESPESA_PESQUISA_IES','OUTRA_DESPESA_IES']]

df_final.to_csv('ies_igc_1.csv', index=False, encoding="ISO-8859-1")

profile = pr(df_final,
             title='IES + IGC',
             minimal=True,
             html={'style': {
                 'full_width': True
             }})
profile.to_file("ies_igc_1.html")