def aplicar_comando (comando, fichero, *args): cmd=comando + fichero for a in args: cmd+=" " + a print("Ejecutando "+cmd) call(cmd, shell=True) ficheros=["Convocadas_Interinos590", "Convocadas_Interinos591", "Convocadas_Interinos594", "Convocadas_Interinos595", "NoConvocadas_Interinos0590", "NoConvocadas_Interinos0591", "NoConvocadas_Interinos0592", "NoConvocadas_Interinos0594", "NoConvocadas_Interinos0595","NoConvocadas_Interinos0596", "ConvocadasMaestros", "NoConvocadasMaestros"] ficheros=glob.glob("*.pdf") for f in ficheros: if not gestor_fichero.existe_fichero(f[:-4]+".txt"): gestor_fichero.aplicar_comando(CONVERTIR, f) for f in ficheros: gestor_fichero.aplicar_comando(PROCESAR, f[:-4]+".txt")
#!/usr/bin/env python3 import os, sys DIR_UTILIDADES=".." + os.sep + "utilidades" + os.sep + "src" sys.path.insert ( 0, DIR_UTILIDADES ) from utilidades.ficheros.GestorFicheros import GestorFicheros from constantes import * gf=GestorFicheros() gf.crear_directorio ( SUBDIRECTORIO_HTML ) for i in range(0, TOTAL_PAGINAS): num = i*3 url_descarga = URL_PAGINAS_AL.format ( num ) fichero_destino = FICHERO_BASE_AL.format ( i ) if not gf.existe_fichero( fichero_destino ): gf.descargar_fichero(url_descarga, fichero_destino)
if (platform.system()=="Linux"): PROCESAR="./procesar_tabla.py " BORRAR="rm " if (platform.system()=="Windows"): PROCESAR="procesar_tabla.py " BORRAR="del " FICH_RESULTADO="resultado.csv" CONCAT="cat " def aplicar_comando (comando, fichero, *args): cmd=comando + fichero for a in args: cmd+=" " + a print("Ejecutando "+cmd) call(cmd, shell=True) ficheros=["597" ] for f in ficheros: if not gf.existe_fichero(f+".txt"): gf.aplicar_comando(CONVERTIR, f+".pdf") for f in ficheros: gf.aplicar_comando(PROCESAR, f+".txt")
natu = div_natu.string.strip() #Enlace a mas informacion enlace_nombre= centro.find ("div", "campListNOMBRE") enlace_centro = enlace_nombre.a["href"] nom_centro=enlace_nombre.a.string.strip() #Codigo del centro div_cod_centro= centro.find ("div", "campListCENTID") cod_centro=div_cod_centro.string.strip() cod_centro=cod_centro.replace("[", "") cod_centro=cod_centro.replace("]", "") #Se descarga el fichero ampliado url_informacion_centro = URL_JUNTA + enlace_centro fichero_mas_informacion=NOMBRE_FICHERO_INFORMACION_CENTRO.format (cod_centro) if not gf.existe_fichero ( fichero_mas_informacion ): gf.descargar_fichero (url_informacion_centro, fichero_mas_informacion) div_dir_postal=centro.find("div", "campListDOMICILIO") dir_postal=div_dir_postal.string.strip() div_cod_postal=centro.find("div", "campListCP") cod_postal=div_cod_postal.string.strip()[4:] div_localidad=centro.find("div", "campListLOCALIDAD") nombre_localidad=div_localidad.string.strip() nom_localidad=rectificar_nombre_localidad(nombre_localidad) try: localidad_asociada=Localidad.objects.get(nombre_localidad=nom_localidad)
CONVERTIR="pdftotext -layout -nopgbrk " if (platform.system()=="Linux"): PROCESAR="./procesar_tabla.py " BORRAR="rm " if (platform.system()=="Windows"): PROCESAR="procesar_tabla.py " BORRAR="del " FICH_RESULTADO="resultado.csv" CONCAT="cat " ficheros_pdf=glob.glob("*.pdf") for f in ficheros_pdf: nuevo_nombre=gf.reemplazar_espacios(f) gf.renombrar_fichero(f, nuevo_nombre) ficheros_pdf=glob.glob("*.pdf") for f in ficheros_pdf: nombre_con_txt=f[:-4]+".txt" if not gf.existe_fichero(nombre_con_txt): #print ("No existe:"+nombre_con_txt) gf.aplicar_comando(CONVERTIR, f) ficheros_txt=glob.glob("*.txt") for f in ficheros_txt: gf.aplicar_comando(PROCESAR, f)
#!/usr/bin/env python3 #coding=utf-8 from utilidades.ficheros.GestorFicheros import GestorFicheros import constantes import bs4, glob, os from mako.template import Template gf=GestorFicheros() for i in range(0, 14): FICHERO_DESTINO=constantes.RUTA_FICHEROS_DESCARGADOS.format(i) if not gf.existe_fichero ( FICHERO_DESTINO ): gf.descargar_fichero (constantes.URL_BASE.format ( i ), FICHERO_DESTINO) contador_comics=0 for i in range(0, 14): FICHERO_A_PROCESAR=constantes.RUTA_FICHEROS_DESCARGADOS.format(i) sopa=bs4.BeautifulSoup ( open(FICHERO_A_PROCESAR, "r"), "html5lib" ) divs_miniatura=sopa.find_all("div", "bg_comic") for div in divs_miniatura: enlace=div.find("a") URL_COMIC = constantes.URL + enlace["href"] print (URL_COMIC) COMIC_DESCARGA=constantes.RUTA_COMICS_DESCARGADOS.format ( contador_comics ) if not gf.existe_fichero ( COMIC_DESCARGA ): gf.descargar_fichero ( URL_COMIC, COMIC_DESCARGA ) contador_comics=contador_comics + 1