Python CrawlerRunner._create_crawler Examples

Programming Language: Python

Namespace/Package Name: scrapy.crawler

Class/Type: CrawlerRunner

Method/Function: _create_crawler

Examples at hotexamples.com: 4

Python CrawlerRunner._create_crawler - 4 examples found. These are the top rated real world Python examples of scrapy.crawler.CrawlerRunner._create_crawler extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

CrawlerRunner(30)

crawl(30)

join(30)

create_crawler(25)

stop(7)

start(3)

_create_crawler(2)

_create_spider(2)

addBoth(1)

Example #1

Show file

File: test.py Project: 0326/scrapy

def get_crawler(spidercls=None, settings_dict=None):
    """Return an unconfigured Crawler object. If settings_dict is given, it
    will be used to populate the crawler settings with a project level
    priority.
    """
    from scrapy.crawler import CrawlerRunner
    from scrapy.settings import Settings
    from scrapy.spider import Spider

    runner = CrawlerRunner(Settings(settings_dict))
    return runner._create_crawler(spidercls or Spider)

Example #2

Show file

def get_crawler(spidercls=None, settings_dict=None):
    """Return an unconfigured Crawler object. If settings_dict is given, it
    will be used to populate the crawler settings with a project level
    priority.
    """
    from scrapy.crawler import CrawlerRunner
    from scrapy.settings import Settings
    from scrapy.spider import Spider

    runner = CrawlerRunner(Settings(settings_dict))
    return runner._create_crawler(spidercls or Spider)

Example #3

Show file

        if self.settings.getbool('DNSCACHE_ENABLED'):
            cache_size = self.settings.getint('DNSCACHE_SIZE')
        else:
            cache_size = 0
        print "wwj debug return my_cachingThreadedResolver"
        return my_CachingThreadedResolver(
            reactor=reactor,
            cache_size=cache_size,
            timeout=self.settings.getfloat('DNS_TIMEOUT'))


settings = get_project_settings()
my_process = my_CrawlerProcess(settings)

runner = CrawlerRunner(settings)
#### one runner, more spiders
spidercls = runner.spider_loader.load('scrapy_spider')
my_crawler = runner._create_crawler(spidercls)

my_crawler.spider = my_crawler._create_spider('scrapy_spider')
my_crawler.engine = my_crawler._create_engine()

start_requests = iter(my_crawler.spider.start_requests())
close_if_idle = False
my_crawler.engine.open_spider(my_crawler.spider, start_requests, close_if_idle)
my_crawler.engine.start()

#process.crawl('scrapy_spider')
stop_after_crawl = False
my_process.start(stop_after_crawl)

Example #4

Show file

File: run_server.py Project: wuwenjunwwj/inst_spider

            cache_size = self.settings.getint('DNSCACHE_SIZE')
        else:
            cache_size = 0
        print "wwj debug return my_cachingThreadedResolver"
        return my_CachingThreadedResolver(
            reactor=reactor,
            cache_size=cache_size,
            timeout=self.settings.getfloat('DNS_TIMEOUT')
        )


settings = get_project_settings()
my_process = my_CrawlerProcess(settings)

runner = CrawlerRunner(settings)
#### one runner, more spiders 
spidercls = runner.spider_loader.load('scrapy_spider')
my_crawler = runner._create_crawler(spidercls)

my_crawler.spider = my_crawler._create_spider('scrapy_spider')
my_crawler.engine = my_crawler._create_engine()

start_requests = iter(my_crawler.spider.start_requests())
close_if_idle = False
my_crawler.engine.open_spider(my_crawler.spider, start_requests, close_if_idle)
my_crawler.engine.start()

#process.crawl('scrapy_spider')
stop_after_crawl = False
my_process.start(stop_after_crawl)