Python CrawlerProcess.start_crawling Beispiele

Programmiersprache: Python

Namespace / Paketname: scrapy.crawler

Klasse / Typ: CrawlerProcess

Methode / Funktion: start_crawling

Beispiele auf hotexamples.com: 2

Python CrawlerProcess.start_crawling - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die scrapy.crawler.CrawlerProcess.start_crawling, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

CrawlerProcess(30)

crawl(30)

create_crawler(30)

join(30)

start(30)

install(24)

configure(17)

stop(17)

settings(3)

uninstall(3)

start_crawling(2)

_create_crawler(1)

_get_spider_loader(1)

_signal_shutdown(1)

stop_reactor(1)

Beispiel #1

Datei anzeigen

Datei: utils.py Projekt: chenhc/laravel

def get_fetch(log=False):
    settings = Settings()
    settings.set('LOG_ENABLED', log)

    crawler_process = CrawlerProcess(settings)
    crawler = crawler_process.create_crawler()
    crawler_process.start_crawling()

    t = Thread(target=crawler_process.start_reactor)
    t.daemon = True
    t.start()

    shell = Shell(crawler)
    shell.code = 'adsf'

    import threading
    lock = threading.Lock()

    def fetch(url_or_request):
        lock.acquire()
        try:
            shell.fetch(url_or_request)
            response = shell.vars.get('response')
            return response
        finally:
            lock.release()

    return fetch

Beispiel #2

Datei anzeigen

Datei: __init__.py Projekt: stevearc/ozzy

def shell(argv):
    """ Open a url in the scrapy shell """
    parser = argparse.ArgumentParser('ozzy shell',
                                     description=shell.__doc__)
    parser.add_argument('url', help="URL to open in a shell")
    args = parser.parse_args(argv)

    crawler_process = CrawlerProcess(load_settings())
    crawler = crawler_process.create_crawler()
    crawler_process.start_crawling()
    thread = Thread(target=crawler_process.start_reactor)
    thread.daemon = True
    thread.start()
    sh = Shell(crawler)
    sh.start(url=args.url)