def start(self,scraperLinks,progress,directorio,id_request,searchKey): unConfig = config() step=0 progress.set_totalScraping(len(scraperLinks)) progress.set_scrapingState('Ejecutando') # ordenar por el peso de los documentos self.rankear(scraperLinks,searchKey) scraperLinks = sorted(scraperLinks, key=lambda k: k['totalScore']) scraperLinks = self.unificarLista(scraperLinks) self.crearTop50(scraperLinks,directorio,unConfig) progress.totalNodes = len(scraperLinks) for link in scraperLinks: if not progress.get_stop(): step+=1 progress.set_scrapingProgress(step) url=URL(link['link']) fileNameJson = str(step).zfill(2)+"_"+url.domain+'.json' fileNameDocument = str(step).zfill(2)+"_"+url.domain if extension(url.page) == ".pdf": fileNameDocument += ".pdf" else: fileNameDocument += ".html" try: self.fileGenerator.json(link,fileNameJson,fileNameDocument,link,id_request,directorio) except Exception,e: print str(e) pass else: progress.set_scrapingState('Detenido') print 'Detenido' break
def limpiarDirectorio(self, nombreArchivo ="*.json", directorio=""): try: unConfig = config() os.chdir(unConfig.repositoryPath + directorio) for file in glob.glob(nombreArchivo): archivo = open(unConfig.repositoryPath+directorio+"/"+file, 'r') if not archivo.read(): os.remove(unConfig.repositoryPath+directorio+"/"+file) self.eliminarArchivos(unConfig.repositoryPath+directorio,str(file).split('.json')[0]) logController = LogsController(directorio) logController.Warning("Json Eliminado: " + str(file)) except Exception as e: logController = LogsController(directorio) logController.Error("L204 Scraper") print str(e) pass
def __init__(self): self.config = config() self.repositoryPath = self.config.repositoryPath pass