def parse_sp_dados_2_inst(self, path_arquivos=path + '/sp_2_inst/'): cursor = cursorConexao() p = pdf_to_text() for arq in os.listdir(path_arquivos): try: if re.search(r'\.pdf', arq): texto = p.convert_pdfminer(path_arquivos + arq).strip().replace( '\\', '').replace('/', '').replace( '"', '') tribunal = 'sp' numero = busca(r'\d{7}\-\d{2}\.\d{4}\.\d\.\d{2}\.\d{4}', texto, ngroup=0) polo_ativo = busca(r'apelante\s*?\:(.*?)\n', texto, args=re.I) polo_passivo = busca(r'apelado\s*?\:(.*?)\n', texto, args=re.I) cursor.execute( 'INSERT INTO jurisprudencia_2_inst.jurisprudencia_2_inst_societario_processos (tribunal, numero, texto_decisao, polo_ativo, polo_passivo) values ("%s","%s","%s","%s","%s");' % (tribunal, numero, texto, polo_ativo, polo_passivo)) except Exception as e: print(arq) print(e)
def main(): c = crawler_jurisprudencia_tjba() cursor = cursorConexao() p = pdf_to_text() for arq in os.listdir(path + '/ba_2_inst'): c.parser_acordaos(path + '/ba_2_inst/' + arq, cursor, p)
def main(): c = crawler_jurisprudencia_tjam() cursor = cursorConexao() # cursor.execute('SELECT id,ementas from justica_estadual.jurisprudencia_am where id > 29237 limit 10000000;') # lista_links = cursor.fetchall() # c.download_acordao_am(lista_links) p = pdf_to_text() for arq in os.listdir(path + '/am_2_inst'): c.parser_acordaos(path + '/am_2_inst/' + arq, cursor, p)
def main(): c = crawler_jurisprudencia_tjpb() cursor = cursorConexao() p = pdf_to_text() for arq in os.listdir(path+'/pb_2_inst'): try: c.parser_acordaos(path+'/pb_2_inst/'+arq, cursor, p) except Exception as e: print(arq) print(e)
[r"^caderno2-Judiciario\.pdf$", arq_ce], [r"^Caderno\d-Judicial.+\.pdf$", arq_ms], [r"^\d+\.pdf$", arq_rs], [r"^diario_\d+-\d+-\d+\.pdf$", arq_pb], [r"^bahia.pdf$", arq_ba], [r"^riodejaneiro\d+.pdf$", arq_rj], [r"^CADERNO_\d+_.+.pdf$", arq_trf2]] diarios_pb_pe = [[r"^DJ.+\.PDF$", arq_pe], [r"^DJ.+\.PDF$", arq_df]] if __name__ == '__main__': if len(sys.argv) == 2: data = sys.argv[1] else: data = datetime.date.today().strftime("%Y%m%d") ano = data[:4] mes = data[4:6] dia = data[6:] if len(dia) == 1: dia = "0" + dia arqs_i = os.listdir(path) arqs_f = [] pdf_2_txt = pdf_to_text() for i in arqs_i: if i not in arqs_f: for d in re_diarios: if re.search(d[0], i): try: d[1].write(pdf_2_txt.convert_Tika(i)) arqs_f.append(i) break except: pass
break driver.close() def parser_acordaos(self, arquivo, cursor, pdf_class): texto = pdf_class.convert_pdfminer(arquivo).replace('\\', '').replace( '/', '').replace('"', '') numero = busca(r'\n.*?N. (.*?) - CLASSE CNJ', texto) julgador = busca(r'\n\s*?DESEMBARGADOR[A]?(.*?)- RELATOR', texto) data_decisao = busca(r'\n\s*?Data de Julgamento\:(.*?)\n', texto) cursor.execute( 'INSERT INTO jurisprudencia_2_inst.jurisprudencia_2_inst (tribunal, numero, data_decisao, julgador, texto_decisao) values ("%s","%s","%s","%s","%s");' % ('mt', numero, data_decisao, julgador, texto)) if __name__ == '__main__': c = crawler_jurisprudencia_tjmt() cursor = cursorConexao() p = pdf_to_text() for arq in os.listdir(path + '/mt_2_inst'): try: c.parser_acordaos(path + '/mt_2_inst/' + arq, cursor, p) except Exception as e: print(e) # print('comecei ',c.__class__.__name__) # try: # c.download_tj() # except Exception as e: # print(e) # print('finalizei com erro\n')