def __init__(self, headers=None): if headers == None: #valor de headers default headers = [ 'Origin: http://buscador.compras.imss.gob.mx', 'Accept-Encoding: gzip, deflate', 'Accept-Language: en-US,en;q=0.8,es;q=0.6', 'User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36', 'Content-Type: application/x-www-form-urlencoded', 'Accept: */*', 'Referer: http://buscador.compras.imss.gob.mx/wrap/index.html', 'X-Requested-With: WAJAF::Ajax - WebAbility(r) v5', 'Connection: keep-alive', 'DNT: 1' ] #inicializa el objeto que maneja las peticiones curl Scrape.__init__(self, headers) #inicializa el objeto mongo_client que se instancia en la clase Scrape #getattr hace una cosa como getattr('x','valor') ==> x.valor self.db = getattr(self.mongo_client, 'imss') self.compras = getattr(self.db, 'compras') self.raw = getattr(self.db, 'raw') #estos son los valores default de la página. se pueden modificar pero no lo haré para permanecer como bajo perfil self.numperpage = 20 self.page = 1 self.url = 'http://buscador.compras.imss.gob.mx/index.php' self.datos_default = '&type=compras&message=X&filtered=1&descripcion=&proveedor=&numcompra=&delegacion=values%3D&fecha=min%3D%3Bmax%3D&procedimiento=values%3D&exact=false&numperpage={}&page={}&order=fecha%20desc'
def __init__(self,headers=None): if headers == None: #valor de headers default headers = ['Origin: http://buscador.compras.imss.gob.mx','Accept-Encoding: gzip, deflate','Accept-Language: en-US,en;q=0.8,es;q=0.6','User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36','Content-Type: application/x-www-form-urlencoded','Accept: */*','Referer: http://buscador.compras.imss.gob.mx/wrap/index.html','X-Requested-With: WAJAF::Ajax - WebAbility(r) v5','Connection: keep-alive','DNT: 1'] #inicializa el objeto que maneja las peticiones curl Scrape.__init__(self,headers) #inicializa el objeto mongo_client que se instancia en la clase Scrape #getattr hace una cosa como getattr('x','valor') ==> x.valor self.db = getattr(self.mongo_client, 'imss') self.compras = getattr(self.db, 'compras') self.raw = getattr(self.db, 'raw') #estos son los valores default de la página. se pueden modificar pero no lo haré para permanecer como bajo perfil self.numperpage = 20 self.page=1 self.url = 'http://buscador.compras.imss.gob.mx/index.php' self.datos_default = '&type=compras&message=X&filtered=1&descripcion=&proveedor=&numcompra=&delegacion=values%3D&fecha=min%3D%3Bmax%3D&procedimiento=values%3D&exact=false&numperpage={}&page={}&order=fecha%20desc'
def __init__(self, url): self.summary_id = "tableSummaryHeader" self.filter_class = "strongRow" self.table_class = "summaryTable" Scrape.__init__(self, url)