Ejemplo n.º 1
0
    def start(self,scraperLinks,progress,directorio,id_request,searchKey):
        unConfig = config()
        step=0
        progress.set_totalScraping(len(scraperLinks))
        progress.set_scrapingState('Ejecutando')

        # ordenar por el peso de los documentos
        self.rankear(scraperLinks,searchKey)

        scraperLinks = sorted(scraperLinks, key=lambda k: k['totalScore'])
        scraperLinks = self.unificarLista(scraperLinks)
        self.crearTop50(scraperLinks,directorio,unConfig)

        progress.totalNodes = len(scraperLinks)
        for link in scraperLinks:
            if not progress.get_stop():
                step+=1
                progress.set_scrapingProgress(step)
                url=URL(link['link'])
                fileNameJson = str(step).zfill(2)+"_"+url.domain+'.json'
                fileNameDocument = str(step).zfill(2)+"_"+url.domain
                if extension(url.page) == ".pdf":
                    fileNameDocument += ".pdf"
                else:
                    fileNameDocument += ".html"
                try:
                    self.fileGenerator.json(link,fileNameJson,fileNameDocument,link,id_request,directorio)
                except Exception,e:
                    print str(e)
                    pass
            else:
                progress.set_scrapingState('Detenido')
                print 'Detenido'
                break
Ejemplo n.º 2
0
 def limpiarDirectorio(self, nombreArchivo ="*.json", directorio=""):
     try:
         unConfig = config()
         os.chdir(unConfig.repositoryPath + directorio)
         for file in glob.glob(nombreArchivo):
             archivo = open(unConfig.repositoryPath+directorio+"/"+file, 'r')
             if not archivo.read():
                 os.remove(unConfig.repositoryPath+directorio+"/"+file)
                 self.eliminarArchivos(unConfig.repositoryPath+directorio,str(file).split('.json')[0])
                 logController = LogsController(directorio)
                 logController.Warning("Json Eliminado: " + str(file))
     except Exception as e:
         logController = LogsController(directorio)
         logController.Error("L204 Scraper")
         print str(e)
         pass
Ejemplo n.º 3
0
 def __init__(self):
     self.config = config()
     self.repositoryPath = self.config.repositoryPath
     pass