Exemple #1
0
    def __init__(self, headers=None):
        if headers == None:
            #valor de headers default
            headers = [
                'Origin: http://buscador.compras.imss.gob.mx',
                'Accept-Encoding: gzip, deflate',
                'Accept-Language: en-US,en;q=0.8,es;q=0.6',
                'User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36',
                'Content-Type: application/x-www-form-urlencoded',
                'Accept: */*',
                'Referer: http://buscador.compras.imss.gob.mx/wrap/index.html',
                'X-Requested-With: WAJAF::Ajax - WebAbility(r) v5',
                'Connection: keep-alive', 'DNT: 1'
            ]

        #inicializa el objeto que maneja las peticiones curl
        Scrape.__init__(self, headers)

        #inicializa el objeto mongo_client que se instancia en la clase Scrape
        #getattr hace una cosa como getattr('x','valor') ==> x.valor
        self.db = getattr(self.mongo_client, 'imss')
        self.compras = getattr(self.db, 'compras')
        self.raw = getattr(self.db, 'raw')

        #estos son los valores default de la página. se pueden modificar pero no lo haré para permanecer como bajo perfil
        self.numperpage = 20
        self.page = 1
        self.url = 'http://buscador.compras.imss.gob.mx/index.php'
        self.datos_default = '&type=compras&message=X&filtered=1&descripcion=&proveedor=&numcompra=&delegacion=values%3D&fecha=min%3D%3Bmax%3D&procedimiento=values%3D&exact=false&numperpage={}&page={}&order=fecha%20desc'
Exemple #2
0
    def __init__(self,headers=None):
        if headers == None:
            #valor de headers default
            headers = ['Origin: http://buscador.compras.imss.gob.mx','Accept-Encoding: gzip, deflate','Accept-Language: en-US,en;q=0.8,es;q=0.6','User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36','Content-Type: application/x-www-form-urlencoded','Accept: */*','Referer: http://buscador.compras.imss.gob.mx/wrap/index.html','X-Requested-With: WAJAF::Ajax - WebAbility(r) v5','Connection: keep-alive','DNT: 1']
        
        #inicializa el objeto que maneja las peticiones curl
        Scrape.__init__(self,headers)

        #inicializa el objeto mongo_client que se instancia en la clase Scrape
        #getattr hace una cosa como getattr('x','valor') ==> x.valor
        self.db = getattr(self.mongo_client, 'imss')
        self.compras = getattr(self.db, 'compras')
        self.raw = getattr(self.db, 'raw')

        #estos son los valores default de la página. se pueden modificar pero no lo haré para permanecer como bajo perfil
        self.numperpage = 20
        self.page=1
        self.url = 'http://buscador.compras.imss.gob.mx/index.php'
        self.datos_default = '&type=compras&message=X&filtered=1&descripcion=&proveedor=&numcompra=&delegacion=values%3D&fecha=min%3D%3Bmax%3D&procedimiento=values%3D&exact=false&numperpage={}&page={}&order=fecha%20desc'
Exemple #3
0
 def __init__(self, url):
     self.summary_id = "tableSummaryHeader"
     self.filter_class = "strongRow"
     self.table_class = "summaryTable"
     Scrape.__init__(self, url)