# }, inplace=True) # df_local = df_local.append(df_local_2016) # df_local = df_local.drop_duplicates(subset=['CODIGO_LOCAL_OFERTA', 'CODIGO_IES', 'CODIGO_CURSO'],ignore_index=True) # df_local.reset_index(drop=True, inplace=True) # df_local.to_csv('censo_superior_local_oferta_com_missing.csv', index=False) # profile = pr(df_local, title='Censo Escolar da Educação Superior: Local de Oferta', minimal=True, html={'style':{'full_width':True}}) # profile.to_file("profiling_censo_educacao_superior_local_oferta_com_missing.html") df_local = pd.read_csv("censo_superior_local_oferta_com_missing.csv", sep=",", encoding="ISO-8859-1") df_local = df_local.dropna() df_local.reset_index(drop=True, inplace=True) df_local.to_csv('censo_superior_local_oferta_sem_missing.csv', index=False) profile = pr(df_local, title='Censo Escolar da Educação Superior: Local de Oferta', minimal=True, html={'style': { 'full_width': True }}) profile.to_file( "profiling_censo_educacao_superior_local_oferta_sem_missing.html")
df_cpc_2016.rename(columns={'Ano': 'ANO_CPC', 'Código da IES': 'CODIGO_IES', 'Código do Curso': 'CODIGO_CURSO', 'CPC Faixa': 'CPC_FAIXA'}, inplace=True) df_cpc_2015 = df_cpc_2015[['Ano','Código da IES','Código do Curso','CPC Faixa']] df_cpc_2015.rename(columns={'Ano': 'ANO_CPC', 'Código da IES': 'CODIGO_IES', 'Código do Curso': 'CODIGO_CURSO', 'CPC Faixa': 'CPC_FAIXA'}, inplace=True) df_cpc = df_cpc_2018 df_cpc = df_cpc.append(df_cpc_2017, ignore_index=True) df_cpc = df_cpc.append(df_cpc_2016, ignore_index=True) df_cpc = df_cpc.append(df_cpc_2015, ignore_index=True) df_cpc.drop_duplicates(subset=['CODIGO_IES', 'CODIGO_CURSO'],ignore_index=True, inplace=True) df_cpc.to_csv('cpc.csv', index=False) profile = pr(df_cpc, title='cpc', minimal=True, html={'style':{'full_width':True}}) profile.to_file("cpc.html") # profile = pr(df_cpc_2017, title='cpc de 2017', minimal=True, html={'style':{'full_width':True}}) # profile.to_file("cpc_2017.html") # profile = pr(df_cpc_2016, title='cpc de 2016', minimal=True, html={'style':{'full_width':True}}) # profile.to_file("cpc_2016.html")
df_enade.drop_duplicates(ignore_index=True, inplace=True) df_enade.reset_index(drop=True, inplace=True) df_enade = df_enade.loc[df_enade['PRESENCA_ENADE']=='555'] df_enade.drop('PRESENCA_ENADE', axis=1, inplace=True) df_enade = df_enade.loc[(df_enade['CODIGO_IES'] != '708') & (df_enade['CODIGO_IES'] != '18210')] df_enade.dropna(inplace=True) df_enade.reset_index(drop=True, inplace=True) notas = [] # for i,j in df_enade.iterrows(): # j['NOTA_BRUTA_ENADE'] = str(j['NOTA_BRUTA_ENADE']).replace(',','.') for i, j in df_enade.iterrows(): nota = str(j['NOTA_BRUTA_ENADE']).replace(',','.') notas.append(nota) df_enade.drop('NOTA_BRUTA_ENADE', axis=1, inplace=True) df_enade.insert(1, 'NOTA_BRUTA_ENADE', notas) df_enade.to_csv('enade_final.csv', index=False) # df_enade = pd.read_csv("enade_presencas_validas_sem_missing_com_escopo_maior.csv", sep=",", encoding = "ISO-8859-1", dtype='unicode') profile = pr(df_enade, title='Analisando dados sobre as inscrições válidas do ENADE de 2016, 2017 e 2018 de ests de cursos de todo o Brasil, sem valores faltantes', minimal=True, html={'style':{'full_width':True}}) profile.to_file("enade_final.html")
import pandas as pd from pandas_profiling import ProfileReport as pr # pd.set_option("max_columns", None) # pd.set_option("max_rows", None) # df_enade = pd.read_csv("enade_presencas_validas_sem_missing_com_escopo_menor_n.csv", sep=",", encoding="ISO-8859-1", dtype='unicode') df_enade = pd.read_csv("enade_presencas_validas_sem_missing_com_escopo_maior.csv", sep=",", encoding="ISO-8859-1", dtype='unicode') df_ies = pd.read_csv("censo_superior_ies.csv", sep=",", encoding="ISO-8859-1", dtype='unicode') df_ies.drop('CATEGORIA_ADMINISTRATIVA_IES', axis=1, inplace=True) df_ies.drop('ORGANIZACAO_ACADEMICA_IES', axis=1, inplace=True) df_ies.drop('CODIGO_REGIAO_IES', axis=1, inplace=True) df_ies.drop('CODIGO_UNIDADE_FEDERATIVA_IES', axis=1, inplace=True) df_ies.drop('CODIGO_MUNICIPIO_IES', axis=1, inplace=True) print("Começando join") df_final = df_enade.join(df_ies.set_index('CODIGO_IES'), on='CODIGO_IES') print("Finalizando join") df_final.to_csv('enade_sem_missing_com_escopo_maior_ies.csv', index=False, encoding="ISO-8859-1") profile = pr(df_final, title='ENADE + IES', minimal=True, html={'style':{'full_width':True}}) profile.to_file("profiling_enade_sem_missing_com_escopo_maior_ies.html")
import pandas as pd from pandas_profiling import ProfileReport as pr import os for file in os.listdir("D:\DataManagement-2\DS4C_DataSet"): csv_file_path = "D:\DataManagement-2\DS4C_DataSet\"+file df = pd.read_csv() profile = pr(df, title= file + ' PROFILING REPORT' , explorative=True) output_filename = 'D:\DataManagement-2\Data_Profiling\ ' + file[:-4] + '.html' profile.to_file(output_filename)
df_igc_2016.rename(columns={'nu_ano':'ANO', 'co_ies': 'CODIGO_IES', 'fx_igc': 'IGC_FAIXA'}, inplace=True) df_igc_2015 = conjunto_2015[0][['Ano','Cód.IES','IGC (faixa)']] df_igc_2015 = df_igc_2015.append(conjunto_2015[1][['Ano','Cód.IES','IGC (faixa)']], ignore_index=True) df_igc_2015 = df_igc_2015.append(conjunto_2015[2][['Ano','Cód.IES','IGC (faixa)']], ignore_index=True) df_igc_2015.rename(columns={'Ano':'ANO', 'Cód.IES': 'CODIGO_IES', 'IGC (faixa)': 'IGC_FAIXA'}, inplace=True) df_igc = df_igc_2018 df_igc = df_igc.append(df_igc_2017, ignore_index=True) df_igc = df_igc.append(df_igc_2016, ignore_index=True) df_igc = df_igc.append(df_igc_2015, ignore_index=True) df_igc.drop_duplicates(subset=['CODIGO_IES'],ignore_index=True, inplace=True) df_igc.to_csv('igc_final.csv', index=False) profile = pr(df_igc, title='IGC', minimal=True, html={'style':{'full_width':True}}) profile.to_file("igc_final.html") # profile = pr(df_igc_2017, title='IGC de 2017', minimal=True, html={'style':{'full_width':True}}) # profile.to_file("igc_2017.html") # profile = pr(df_igc_2016, title='IGC de 2016', minimal=True, html={'style':{'full_width':True}}) # profile.to_file("igc_2016.html")
'VL_DES_PESSOAL_ENCARGO': 'VALOR_DESPESA_PESSOAL_ENCARGO_IES', 'VL_DES_CUSTEIO': 'VALOR_DESPESA_CUSTEIO_IES', 'VL_DES_INVESTIMENTO': 'VALOR_DESPESA_INVESTIMENTO_IES', 'VL_DES_PESQUISA': 'VALOR_DESPESA_PESQUISA_IES', 'VL_DES_OUTRAS': 'VALOR_OUTRA_DESPESA_IES', 'IN_ACESSO_PORTAL_CAPES': 'INDICADOR_ACESSO_PORTAL_CAPES_IES', 'IN_ASSINA_OUTRA_BASE': 'INDICADOR_ASSINA_OUTRA_BASE_IES', 'IN_REPOSITORIO_INSTITUCIONAL': 'INDICADOR_REPOSITORIO_INSTITUCIONAL_IES', 'IN_BUSCA_INTEGRADA': 'INDICADOR_BUSCA_INTEGRADA_IES', 'IN_SERVICO_INTERNET': 'INDICADOR_SERVICO_INTERNET_IES', 'IN_PARTICIPA_REDE_SOCIAL': 'INDICADOR_PARTICIPACAO_REDE_SOCIAL_IES', 'IN_CATALOGO_ONLINE': 'INDICADOR_CATALOGO_ONLINE_IES', 'IN_REFERENTE': 'ENTIDADE_REFERENTE_DADO_FINANCEIRO_IES' }, inplace=True) df_ies = df_ies.append(df_ies_2016, ignore_index=True) df_ies = df_ies.drop_duplicates(subset=['CODIGO_IES'], ignore_index=True) df_ies.reset_index(drop=True, inplace=True) df_ies['SIGLA_IES'].fillna('SEM SIGLA', inplace=True) df_ies.to_csv('censo_superior_ies.csv', index=False) # df_ies = pd.read_csv("censo_superior_ies.csv", sep=",", encoding = "ISO-8859-1", dtype="unicode") profile = pr(df_ies, title='Censo Escolar da Educação Superior: IES', minimal=True, html={'style':{'full_width':True}}) profile.to_file("profiling_censo_educacao_superior_ies_1.html")
print("Finalizando join") df_final = df_final[[ 'ANO_CENSO_IES', 'CODIGO_IES', 'ANO_IGC', 'IGC_FAIXA', 'NOME_IES', 'SIGLA_IES', 'CODIGO_MANTENEDORA_IES', 'NOME_MANTENEDORA_IES', 'CATEGORIA_ADMINISTRATIVA_IES', 'ORGANIZACAO_ACADEMICA_IES', 'CODIGO_REGIAO_IES', 'CODIGO_UNIDADE_FEDERATIVA_IES', 'CODIGO_MUNICIPIO_IES', 'LOCALIZACAO_CAPITAL_IES', 'QTDE_TOTAL_TECNICOS_IES', 'QTDE_TECNICOS_FUNDAMENTAL_IES', 'QTDE_TECNICOS_MEDIO_IES', 'QTDE_TECNICOS_SUPERIOR_IES', 'QTDE_TECNICOS_POS_IES', 'ACESSO_PORTAL_CAPES_IES', 'REPOSITORIO_INSTITUCIONAL_IES', 'BUSCA_INTEGRADA_IES', 'SERVICO_INTERNET_IES', 'PARTICIPACAO_REDE_SOCIAL_IES', 'CATALOGO_ONLINE_IES', 'QTDE_PERIODICOS_ELETRONICOS_IES', 'QTDE_LIVROS_ELETRONICOS_IES', 'REFERENCIA_DADO_FINANCEIRO_IES', 'RECEITA_PROPRIA_IES', 'RECEITA_TRANSFERENCIA_IES', 'OUTRA_RECEITA_IES', 'DESPESA_PESSOAL_DOCENTE_IES', 'DESPESA_PESSOAL_TECNICO_IES', 'DESPESA_PESSOAL_ENCARGO_IES', 'DESPESA_CUSTEIO_IES', 'DESPESA_INVESTIMENTO_IES', 'DESPESA_PESQUISA_IES', 'OUTRA_DESPESA_IES' ]] # df_final = df_final[['ANO_CENSO_IES','CODIGO_IES','ANO_IGC','IGC_FAIXA','NOME_IES','SIGLA_IES','CODIGO_MANTENEDORA_IES','NOME_MANTENEDORA_IES','CATEGORIA_ADMINISTRATIVA_IES','ORGANIZACAO_ACADEMICA_IES','CODIGO_REGIAO_IES','CODIGO_UNIDADE_FEDERATIVA_IES','CODIGO_MUNICIPIO_IES','LOCALIZACAO_CAPITAL_IES','QTDE_TOTAL_TECNICOS_IES','QTDE_TECNICOS_FUNDAMENTAL_FEM_IES','QTDE_TECNICOS_FUNDAMENTAL_MASC_IES','QTDE_TECNICOS_MEDIO_FEM_IES','QTDE_TECNICOS_MEDIO_MASC_IES','QTDE_TECNICOS_SUPERIOR_FEM_IES','QTDE_TECNICOS_SUPERIOR_MASC_IES','QTDE_TECNICOS_POS_FEM_IES','QTDE_TECNICOS_POS_MASC_IES','ACESSO_PORTAL_CAPES_IES','REPOSITORIO_INSTITUCIONAL_IES','BUSCA_INTEGRADA_IES','SERVICO_INTERNET_IES','PARTICIPACAO_REDE_SOCIAL_IES','CATALOGO_ONLINE_IES','QTDE_PERIODICOS_ELETRONICOS_IES','QTDE_LIVROS_ELETRONICOS_IES','REFERENCIA_DADO_FINANCEIRO_IES','RECEITA_PROPRIA_IES','RECEITA_TRANSFERENCIA_IES','OUTRA_RECEITA_IES','DESPESA_PESSOAL_DOCENTE_IES','DESPESA_PESSOAL_TECNICO_IES','DESPESA_PESSOAL_ENCARGO_IES','DESPESA_CUSTEIO_IES','DESPESA_INVESTIMENTO_IES','DESPESA_PESQUISA_IES','OUTRA_DESPESA_IES']] df_final.to_csv('ies_igc_1.csv', index=False, encoding="ISO-8859-1") profile = pr(df_final, title='IES + IGC', minimal=True, html={'style': { 'full_width': True }}) profile.to_file("ies_igc_1.html")