def mapeia_texto(self, nome_arquivo_entrada): # exemplo: nome_arquivo_entrada = 'IPDO-22-06-2016 - unlocked.pdf' nome_arquivo_saida = nome_arquivo_entrada + '-unlocked.pdf' # exemplo: nome_arquivo_entrada = 'IPDO-22-06-2016.pdf' nome_arquivo_entrada = nome_arquivo_entrada + '.pdf' ferramenta = Ferramentas() self.log_arquivo_ipdo = {} # log de ocorrências ferramenta.desbloqueia(nome_arquivo_entrada, nome_arquivo_saida) # Imprime no começo da execução, antes de dar qlqr erro self.html_extraido = ferramenta.pdf_para_html(nome_arquivo_saida) imprimir = ImprimeArquivosTexto() imprimir.texto_em_html(self.html_extraido, 'texto_extraido.html') self.objeto_bs = BeautifulSoup(self.html_extraido, 'html.parser') self.balanco_energetico_resumido = self.extrair_balanco_energetico_resumido() self.balanco_energetico_detalhado = self.extrair_balanco_energetico_detalhado() self.arquivo_ipdo = {} self.arquivo_ipdo["geral"] = self.balanco_energetico_resumido["geral"] self.arquivo_ipdo["balanco_resumido"] = self.balanco_energetico_resumido["balanco_resumido"] self.arquivo_ipdo["balanco_detalhado"] = self.balanco_energetico_detalhado
caminho = str(caminho) + '\Scripts-py' for dia in xrange(01,02): if (dia <10): nome_arquivo_entrada = caminho + '\IPDO-0'+str(dia)+'-05-2016' else: nome_arquivo_entrada = caminho + '\IPDO-'+str(dia)+'-05-2016' # exemplo: nome_arquivo_entrada = 'IPDO-22-06-2016.pdf' nome_arquivo_saida = nome_arquivo_entrada + '-unlocked.pdf' # exemplo: nome_arquivo_entrada = 'IPDO-22-06-2016.pdf' nome_arquivo_entrada = nome_arquivo_entrada + '.pdf' tag='div' html_extraido = converte.pdf_para_html(nome_arquivo_saida) objeto_bs = BeautifulSoup(html_extraido, 'html.parser') dic = DicionarioRegEx() dic = dic.intercambio inter = subsistema.intercambio_entre_subsistemas(objeto_bs, tag, dic['fontes_lf'], dic['fontes_tp'] ) #print fontes producao_vf = subsistema.producao(objeto_bs, tag, dic['prod_verif_lf'], dic['prod_verif_tp'] ) producao_pg = subsistema.producao(objeto_bs, tag, dic['prod_prog_lf'], dic['prod_prog_tp'] ) print 'produção_vf ->' + str(len(producao_vf)) + str(producao_vf) print 'produção_pg ->' + str(len(producao_pg)) + str(producao_pg)