Python Scheduler.from_crawler 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: scrapy.core.scheduler

클래스/타입: Scheduler

메소드/함수: from_crawler

hotexamples.com에서의 예제들: 16

Python Scheduler.from_crawler - 16개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 scrapy.core.scheduler.Scheduler.from_crawler에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

from_crawler(10)

next_request(1)

자주 사용되는 메소드들

from_crawler (10)

next_request (1)

예제 #1

파일 보기

파일: test_dupefilters.py 프로젝트: zhaojiedi1992/scrapy

    def test_log_debug(self):
        with LogCapture() as l:
            settings = {'DUPEFILTER_DEBUG': True,
                        'DUPEFILTER_CLASS': __name__  + '.FromCrawlerRFPDupeFilter'}
            crawler = get_crawler(SimpleSpider, settings_dict=settings)
            scheduler = Scheduler.from_crawler(crawler)
            spider = SimpleSpider.from_crawler(crawler)

            dupefilter = scheduler.df
            dupefilter.open()

            r1 = Request('http://scrapytest.org/index.html')
            r2 = Request('http://scrapytest.org/index.html',
                headers={'Referer': 'http://scrapytest.org/INDEX.html'}
            )

            dupefilter.log(r1, spider)
            dupefilter.log(r2, spider)

            assert crawler.stats.get_value('dupefilter/filtered') == 2
            l.check_present(('scrapy.dupefilters', 'DEBUG',
                ('Filtered duplicate request: <GET http://scrapytest.org/index.html>'
                ' (referer: None)')))
            l.check_present(('scrapy.dupefilters', 'DEBUG',
                ('Filtered duplicate request: <GET http://scrapytest.org/index.html>'
                ' (referer: http://scrapytest.org/INDEX.html)')))

            dupefilter.close('finished')

예제 #2

파일 보기

파일: test_dupefilters.py 프로젝트: zhaojiedi1992/scrapy

 def test_df_from_settings_scheduler(self):
     settings = {'DUPEFILTER_DEBUG': True,
                 'DUPEFILTER_CLASS': __name__  + '.FromSettingsRFPDupeFilter'}
     crawler = get_crawler(settings_dict=settings)
     scheduler = Scheduler.from_crawler(crawler)
     self.assertTrue(scheduler.df.debug)
     self.assertEqual(scheduler.df.method, 'from_settings')

예제 #3

파일 보기

파일: test_dupefilters.py 프로젝트: elacuesta/scrapy

 def test_df_from_settings_scheduler(self):
     settings = {'DUPEFILTER_DEBUG': True,
                 'DUPEFILTER_CLASS': __name__  + '.FromSettingsRFPDupeFilter'}
     crawler = get_crawler(settings_dict=settings)
     scheduler = Scheduler.from_crawler(crawler)
     self.assertTrue(scheduler.df.debug)
     self.assertEqual(scheduler.df.method, 'from_settings')

예제 #4

파일 보기

파일: test_dupefilters.py 프로젝트: youyangxyb/scrapy

    def test_log(self):
        with LogCapture() as l:
            settings = {
                'DUPEFILTER_DEBUG': False,
                'DUPEFILTER_CLASS': __name__ + '.FromCrawlerRFPDupeFilter'
            }
            crawler = get_crawler(SimpleSpider, settings_dict=settings)
            scheduler = Scheduler.from_crawler(crawler)
            spider = SimpleSpider.from_crawler(crawler)

            dupefilter = scheduler.df
            dupefilter.open()

            r1 = Request('http://scrapytest.org/index.html')
            r2 = Request('http://scrapytest.org/index.html')

            dupefilter.log(r1, spider)
            dupefilter.log(r2, spider)

            assert crawler.stats.get_value('dupefilter/filtered') == 2
            l.check_present(('scrapy.dupefilters', 'DEBUG', (
                'Filtered duplicate request: <GET http://scrapytest.org/index.html>'
                ' - no more duplicates will be shown'
                ' (see DUPEFILTER_DEBUG to show all duplicates)')))

            dupefilter.close('finished')

예제 #5

파일 보기

    def test_seenreq_newlines(self):
        """ Checks against adding duplicate \r to
        line endings on Windows platforms. """

        r1 = Request('http://scrapytest.org/1')

        path = tempfile.mkdtemp()
        crawler = get_crawler(settings_dict={'JOBDIR': path})
        try:
            scheduler = Scheduler.from_crawler(crawler)
            df = scheduler.df
            df.open()
            df.request_seen(r1)
            df.close('finished')

            with open(os.path.join(path, 'requests.seen'), 'rb') as seen_file:
                line = next(seen_file).decode()
                assert not line.endswith('\r\r\n')
                if sys.platform == 'win32':
                    assert line.endswith('\r\n')
                else:
                    assert line.endswith('\n')

        finally:
            shutil.rmtree(path)

예제 #6

파일 보기

파일: test_dupefilters.py 프로젝트: elacuesta/scrapy

    def test_log_debug(self):
        with LogCapture() as l:
            settings = {'DUPEFILTER_DEBUG': True,
                        'DUPEFILTER_CLASS': __name__  + '.FromCrawlerRFPDupeFilter'}
            crawler = get_crawler(SimpleSpider, settings_dict=settings)
            scheduler = Scheduler.from_crawler(crawler)
            spider = SimpleSpider.from_crawler(crawler)

            dupefilter = scheduler.df
            dupefilter.open()

            r1 = Request('http://scrapytest.org/index.html')
            r2 = Request('http://scrapytest.org/index.html',
                headers={'Referer': 'http://scrapytest.org/INDEX.html'}
            )
            
            dupefilter.log(r1, spider)
            dupefilter.log(r2, spider)

            assert crawler.stats.get_value('dupefilter/filtered') == 2
            l.check_present(('scrapy.dupefilters', 'DEBUG',
                ('Filtered duplicate request: <GET http://scrapytest.org/index.html>'
                ' (referer: None)')))
            l.check_present(('scrapy.dupefilters', 'DEBUG',
                ('Filtered duplicate request: <GET http://scrapytest.org/index.html>'
                ' (referer: http://scrapytest.org/INDEX.html)')))

            dupefilter.close('finished')

예제 #7

파일 보기

파일: test_scheduler.py 프로젝트: GennadySeleznev/Proxy-Good-Rotating

 def _incompatible(self):
     settings = dict(SCHEDULER_PRIORITY_QUEUE=
                     'scrapy.pqueues.DownloaderAwarePriorityQueue',
                     CONCURRENT_REQUESTS_PER_IP=1)
     crawler = Crawler(Spider, settings)
     scheduler = Scheduler.from_crawler(crawler)
     spider = Spider(name='spider')
     scheduler.open(spider)

예제 #8

파일 보기

 def test_df_direct_scheduler(self):
     settings = {
         'DUPEFILTER_CLASS': DirectDupeFilter,
         'REQUEST_FINGERPRINTER_IMPLEMENTATION': 'VERSION'
     }
     crawler = get_crawler(settings_dict=settings)
     scheduler = Scheduler.from_crawler(crawler)
     self.assertEqual(scheduler.df.method, 'n/a')

예제 #9

파일 보기

def _get_dupefilter(*, crawler=None, settings=None, open=True):
    if crawler is None:
        crawler = get_crawler(settings_dict=settings)
    scheduler = Scheduler.from_crawler(crawler)
    dupefilter = scheduler.df
    if open:
        dupefilter.open()
    return dupefilter

예제 #10

파일 보기

파일: test_scheduler.py 프로젝트: elacuesta/scrapy

 def _incompatible(self):
     settings = dict(
             SCHEDULER_PRIORITY_QUEUE='scrapy.pqueues.DownloaderAwarePriorityQueue',
             CONCURRENT_REQUESTS_PER_IP=1
             )
     crawler = Crawler(Spider, settings)
     scheduler = Scheduler.from_crawler(crawler)
     spider = Spider(name='spider')
     scheduler.open(spider)

예제 #11

파일 보기

 def test_df_from_settings_scheduler(self):
     settings = {
         'DUPEFILTER_DEBUG': True,
         'DUPEFILTER_CLASS': FromSettingsRFPDupeFilter,
         'REQUEST_FINGERPRINTER_IMPLEMENTATION': 'VERSION'
     }
     crawler = get_crawler(settings_dict=settings)
     scheduler = Scheduler.from_crawler(crawler)
     self.assertTrue(scheduler.df.debug)
     self.assertEqual(scheduler.df.method, 'from_settings')

예제 #12

파일 보기

파일: test_dupefilters.py 프로젝트: elacuesta/scrapy

    def test_log(self):
        with LogCapture() as l:
            settings = {'DUPEFILTER_DEBUG': False,
                        'DUPEFILTER_CLASS': __name__  + '.FromCrawlerRFPDupeFilter'}
            crawler = get_crawler(SimpleSpider, settings_dict=settings)
            scheduler = Scheduler.from_crawler(crawler)
            spider = SimpleSpider.from_crawler(crawler)

            dupefilter = scheduler.df
            dupefilter.open()

            r1 = Request('http://scrapytest.org/index.html')
            r2 = Request('http://scrapytest.org/index.html')
            
            dupefilter.log(r1, spider)
            dupefilter.log(r2, spider)

            assert crawler.stats.get_value('dupefilter/filtered') == 2
            l.check_present(('scrapy.dupefilters', 'DEBUG', 
                ('Filtered duplicate request: <GET http://scrapytest.org/index.html>'
                ' - no more duplicates will be shown'
                ' (see DUPEFILTER_DEBUG to show all duplicates)')))

            dupefilter.close('finished')

예제 #13

파일 보기

파일: test_dupefilters.py 프로젝트: zhaojiedi1992/scrapy

 def test_df_direct_scheduler(self):
     settings = {'DUPEFILTER_CLASS': __name__  + '.DirectDupeFilter'}
     crawler = get_crawler(settings_dict=settings)
     scheduler = Scheduler.from_crawler(crawler)
     self.assertEqual(scheduler.df.method, 'n/a')

예제 #14

파일 보기

파일: test_scheduler.py 프로젝트: GennadySeleznev/Proxy-Good-Rotating

 def create_scheduler(self):
     self.mock_crawler = MockCrawler(self.priority_queue_cls, self.jobdir)
     self.scheduler = Scheduler.from_crawler(self.mock_crawler)
     self.spider = Spider(name='spider')
     self.scheduler.open(self.spider)

예제 #15

파일 보기

파일: test_dupefilters.py 프로젝트: elacuesta/scrapy

 def test_df_direct_scheduler(self):
     settings = {'DUPEFILTER_CLASS': __name__  + '.DirectDupeFilter'}
     crawler = get_crawler(settings_dict=settings)
     scheduler = Scheduler.from_crawler(crawler)
     self.assertEqual(scheduler.df.method, 'n/a')

예제 #16

파일 보기

파일: test_scheduler.py 프로젝트: elacuesta/scrapy

 def create_scheduler(self):
     self.mock_crawler = MockCrawler(self.priority_queue_cls, self.jobdir)
     self.scheduler = Scheduler.from_crawler(self.mock_crawler)
     self.spider = Spider(name='spider')
     self.scheduler.open(self.spider)