Ejemplos de getCrawlNoRssRequest en Python

Lenguaje de programación: Python

Namespace/Package Name: mySpiders.utils.http

Método / Función: getCrawlNoRssRequest

Ejemplos en hotexamples.com: 4

Python getCrawlNoRssRequest - 4 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de mySpiders.utils.http.getCrawlNoRssRequest extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Ejemplo n.º 1

Mostrar archivo

    def parse_node(self, response):

        self.currentNode = response
        # logging.info("*********meta******%s****************" % response.meta['spiderConfig'])
        self.initConfig(response.meta['spiderConfig'])

        checkText = self.safeParse(self.checkTxtXpath)
        last_md5 = toMd5(checkText)
        if last_md5 == response.meta['spiderConfig'].get('last_md5', ''):
            yield []
        else:
            item = XmlFeedItem()
            item['title'] = [t.encode('utf-8') for t in self.safeParse(self.titleXpath)]

            imageAndDescriptionInfos = self.parseDescriptionAndImages()
            item['img_url'] = imageAndDescriptionInfos['img_url']
            item['description'] = imageAndDescriptionInfos['description']

            item['public_time'] = [p.encode('utf-8') for p in self.safeParse(self.pubDateXpath)]
            item['source_url'] = [g.encode('utf-8') for g in self.safeParse(self.guidXpath)]
            item['rule_id'] = self.rule_id
            yield item

            # update md5 to mysql
            spiderConfig = getCrawlNoRssRequest({'last_md5': last_md5, 'id': self.rule_id})
            if spiderConfig:
                yield Request(spiderConfig.get('start_urls', '')[0],
                              headers={'Referer': 'http://www.google.com'},
                              meta={'spiderConfig': spiderConfig},
                              callback=self.parse_node,
                              dont_filter=True)

Ejemplo n.º 2

Mostrar archivo

Archivo: WeChatSpider.py Proyecto: flybird1971/spider

    def start_requests(self):

        spiderConfig = getCrawlNoRssRequest()
        if not spiderConfig:
            return []

        self.initConfig(spiderConfig)
        logging.info("*********meta******%s****************" % spiderConfig)
        return [Request(spiderConfig.get('start_urls', '')[0], callback=self.parse, dont_filter=True)]

Ejemplo n.º 3

Mostrar archivo

Archivo: ImageSpider.py Proyecto: sumsung007/spider

    def start_requests(self):

        spiderConfig = getCrawlNoRssRequest()
        if not spiderConfig:
            return []

        self.initConfig(spiderConfig)
        logging.info("*********meta******%s****************" % spiderConfig)
        return [Request(spiderConfig.get('start_urls', '')[0], callback=self.parse, dont_filter=True)]

Ejemplo n.º 4

Mostrar archivo

    def start_requests(self):
        requestUrl = []
        for i in xrange(0, MAX_START_URLS_NUM):
            spiderConfig = getCrawlNoRssRequest()
            if not spiderConfig:
                break

            requestUrl.append(Request(spiderConfig.get('start_urls', '')[0],
                                      meta={'spiderConfig': spiderConfig},
                                      callback=self.parse_node,
                                      dont_filter=True))
        return requestUrl