Python pdf_to_textの例

プログラミング言語: Python

名前空間/パッケージ名: common_nlp.pdf_to_text

メソッド/関数: pdf_to_text

hotexamples.comのコード掲載数: 6

Python pdf_to_text - 6件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのcommon_nlp.pdf_to_text.pdf_to_textの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

 def parse_sp_dados_2_inst(self, path_arquivos=path + '/sp_2_inst/'):
     cursor = cursorConexao()
     p = pdf_to_text()
     for arq in os.listdir(path_arquivos):
         try:
             if re.search(r'\.pdf', arq):
                 texto = p.convert_pdfminer(path_arquivos +
                                            arq).strip().replace(
                                                '\\',
                                                '').replace('/',
                                                            '').replace(
                                                                '"', '')
                 tribunal = 'sp'
                 numero = busca(r'\d{7}\-\d{2}\.\d{4}\.\d\.\d{2}\.\d{4}',
                                texto,
                                ngroup=0)
                 polo_ativo = busca(r'apelante\s*?\:(.*?)\n',
                                    texto,
                                    args=re.I)
                 polo_passivo = busca(r'apelado\s*?\:(.*?)\n',
                                      texto,
                                      args=re.I)
                 cursor.execute(
                     'INSERT INTO jurisprudencia_2_inst.jurisprudencia_2_inst_societario_processos (tribunal, numero, texto_decisao, polo_ativo, polo_passivo) values ("%s","%s","%s","%s","%s");'
                     % (tribunal, numero, texto, polo_ativo, polo_passivo))
         except Exception as e:
             print(arq)
             print(e)

コード例 #2

ファイルを表示

ファイル: crawler_jurisprudencia_tjba.py プロジェクト: juanjorgegarcia/Pesquisas

def main():
    c = crawler_jurisprudencia_tjba()

    cursor = cursorConexao()
    p = pdf_to_text()
    for arq in os.listdir(path + '/ba_2_inst'):
        c.parser_acordaos(path + '/ba_2_inst/' + arq, cursor, p)

コード例 #3

ファイルを表示

ファイル: crawler_jurisprudencia_tjam.py プロジェクト: juanjorgegarcia/Pesquisas

def main():
    c = crawler_jurisprudencia_tjam()
    cursor = cursorConexao()
    # cursor.execute('SELECT id,ementas from justica_estadual.jurisprudencia_am where id > 29237 limit 10000000;')
    # lista_links = cursor.fetchall()
    # c.download_acordao_am(lista_links)

    p = pdf_to_text()
    for arq in os.listdir(path + '/am_2_inst'):
        c.parser_acordaos(path + '/am_2_inst/' + arq, cursor, p)

コード例 #4

ファイルを表示

def main():
	c = crawler_jurisprudencia_tjpb()
	cursor = cursorConexao()

	p = pdf_to_text()
	for arq in os.listdir(path+'/pb_2_inst'):
		try:
			c.parser_acordaos(path+'/pb_2_inst/'+arq, cursor, p)
		except Exception as e:
			print(arq)
			print(e)

コード例 #5

ファイルを表示

              [r"^caderno2-Judiciario\.pdf$", arq_ce],
              [r"^Caderno\d-Judicial.+\.pdf$", arq_ms],
              [r"^\d+\.pdf$", arq_rs], [r"^diario_\d+-\d+-\d+\.pdf$", arq_pb],
              [r"^bahia.pdf$", arq_ba], [r"^riodejaneiro\d+.pdf$", arq_rj],
              [r"^CADERNO_\d+_.+.pdf$", arq_trf2]]

diarios_pb_pe = [[r"^DJ.+\.PDF$", arq_pe], [r"^DJ.+\.PDF$", arq_df]]

if __name__ == '__main__':
    if len(sys.argv) == 2:
        data = sys.argv[1]
    else:
        data = datetime.date.today().strftime("%Y%m%d")
    ano = data[:4]
    mes = data[4:6]
    dia = data[6:]
    if len(dia) == 1:
        dia = "0" + dia
    arqs_i = os.listdir(path)
    arqs_f = []
    pdf_2_txt = pdf_to_text()
    for i in arqs_i:
        if i not in arqs_f:
            for d in re_diarios:
                if re.search(d[0], i):
                    try:
                        d[1].write(pdf_2_txt.convert_Tika(i))
                        arqs_f.append(i)
                        break
                    except:
                        pass

コード例 #6

ファイルを表示

ファイル: crawler_jurisprudencia_tjmt.py プロジェクト: juanjorgegarcia/Pesquisas

                    break
        driver.close()

    def parser_acordaos(self, arquivo, cursor, pdf_class):
        texto = pdf_class.convert_pdfminer(arquivo).replace('\\', '').replace(
            '/', '').replace('"', '')
        numero = busca(r'\n.*?N. (.*?) - CLASSE CNJ', texto)
        julgador = busca(r'\n\s*?DESEMBARGADOR[A]?(.*?)- RELATOR', texto)
        data_decisao = busca(r'\n\s*?Data de Julgamento\:(.*?)\n', texto)
        cursor.execute(
            'INSERT INTO jurisprudencia_2_inst.jurisprudencia_2_inst (tribunal, numero, data_decisao, julgador, texto_decisao) values ("%s","%s","%s","%s","%s");'
            % ('mt', numero, data_decisao, julgador, texto))


if __name__ == '__main__':
    c = crawler_jurisprudencia_tjmt()

    cursor = cursorConexao()
    p = pdf_to_text()
    for arq in os.listdir(path + '/mt_2_inst'):
        try:
            c.parser_acordaos(path + '/mt_2_inst/' + arq, cursor, p)
        except Exception as e:
            print(e)

    # print('comecei ',c.__class__.__name__)
    # try:
    # 	c.download_tj()
    # except Exception as e:
    # 	print(e)
    # 	print('finalizei com erro\n')