Python StatsCollector.close_spider 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: scrapy.statscollectors

클래스/타입: StatsCollector

메소드/함수: close_spider

hotexamples.com에서의 예제들: 3

Python StatsCollector.close_spider - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 scrapy.statscollectors.StatsCollector.close_spider에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

StatsCollector(5)

get_value(5)

get_stats(3)

inc_value(3)

close_spider(2)

max_value(2)

min_value(2)

__init__(1)

open_spider(1)

set_value(1)

예제 #1

파일 보기

class TestDepthMiddleware(TestCase):

    def setUp(self):
        crawler = get_crawler(Spider)
        self.spider = crawler._create_spider('scrapytest.org')

        self.stats = StatsCollector(crawler)
        self.stats.open_spider(self.spider)

        self.mw = DepthMiddleware(1, self.stats, True)

    def test_process_spider_output(self):
        req = Request('http://scrapytest.org')
        resp = Response('http://scrapytest.org')
        resp.request = req
        result = [Request('http://scrapytest.org')]

        out = list(self.mw.process_spider_output(resp, result, self.spider))
        self.assertEquals(out, result)

        rdc = self.stats.get_value('request_depth_count/1', spider=self.spider)
        self.assertEquals(rdc, 1)

        req.meta['depth'] = 1

        out2 = list(self.mw.process_spider_output(resp, result, self.spider))
        self.assertEquals(out2, [])

        rdm = self.stats.get_value('request_depth_max', spider=self.spider)
        self.assertEquals(rdm, 1)

    def tearDown(self):
        self.stats.close_spider(self.spider, '')

예제 #2

파일 보기

파일: test_spidermiddleware_depth.py 프로젝트: pasdoy/scrapy

class TestDepthMiddleware(TestCase):
    def setUp(self):
        crawler = get_crawler(Spider)
        self.spider = crawler._create_spider("scrapytest.org")

        self.stats = StatsCollector(crawler)
        self.stats.open_spider(self.spider)

        self.mw = DepthMiddleware(1, self.stats, True)

    def test_process_spider_output(self):
        req = Request("http://scrapytest.org")
        resp = Response("http://scrapytest.org")
        resp.request = req
        result = [Request("http://scrapytest.org")]

        out = list(self.mw.process_spider_output(resp, result, self.spider))
        self.assertEquals(out, result)

        rdc = self.stats.get_value("request_depth_count/1", spider=self.spider)
        self.assertEquals(rdc, 1)

        req.meta["depth"] = 1

        out2 = list(self.mw.process_spider_output(resp, result, self.spider))
        self.assertEquals(out2, [])

        rdm = self.stats.get_value("request_depth_max", spider=self.spider)
        self.assertEquals(rdm, 1)

    def tearDown(self):
        self.stats.close_spider(self.spider, "")

예제 #3

파일 보기

파일: spider_body.py 프로젝트: touristscode/zhihuAPI

    def parse(self, response):
        #getting the question blocks from response.
        question_blocks = Selector(
            text=json.loads(response.body.decode("utf-8"))['msg'][1]).xpath(
                '//div[contains(@itemtype, "http://schema.org/Question")]')

        for question_block in question_blocks:
            item = ZhihuapiItem()
            item['question_name'] = question_block.xpath(
                './/div/div/h2/a/text()').extract_first()
            item['question_url'] = question_block.xpath(
                './/div/div/h2/a/@href').extract_first()
            item['question_answer'] = question_block.xpath(
                './/div/div/div[1]/div[5]/div/a/@href').extract_first()
            item['question_answer_author_profile'] = question_block.xpath(
                './/div/div/div[1]/div[3]/span/span[1]/a/@href').extract_first(
                )
            item['question_answer_author'] = question_block.xpath(
                './/div/div/div[1]/div[3]/span/span[1]/a/text()'
            ).extract_first()

            self.logger.info(
                'Question info: question name - {}, question answer - {}, question url - {}, question answer author profile - {}, question answer author - {}'
                .format(item['question_name'], item['question_answer'],
                        item['question_url'],
                        item['question_answer_author_profile'],
                        item['question_answer_author']))

            yield item

        if len(question_blocks) > 0:
            last_data_score = question_blocks[len(question_blocks) - 1].xpath(
                '@data-score').extract_first()
        else:
            self.logger.info("No more new questions, waiting to stop...")
            StatsCollector.close_spider(self,
                                        spider=zhihuSpider,
                                        reason="No more questions...")

        self.logger.info('Last Data Score is - {}'.format(last_data_score))
        yield scrapy.http.FormRequest(self.topic_url,
                                      method='POST',
                                      headers=self.headers,
                                      formdata={
                                          'start': '0',
                                          'offset': str(last_data_score)
                                      },
                                      callback=self.parse)