Python Spider.startCrawl Beispiele

Programmiersprache: Python

Namespace / Paketname: spider

Klasse / Typ: Spider

Methode / Funktion: startCrawl

Beispiele auf hotexamples.com: 1

Python Spider.startCrawl - 1 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die spider.Spider.startCrawl, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Spider(30)

crawl_page(30)

crawl(14)

__init__(8)

craw(4)

Search(4)

crawl_genre(3)

build_node(3)

analyse(3)

process_page(2)

court(2)

add_url(2)

content_list(2)

GetInfo(2)

crowl(1)

crowl_page(1)

GET(1)

crawled_page(1)

createResultExcel(1)

get2l_url(1)

crawledPage(1)

crawle_page_in_queue(1)

crawl_weather(1)

crawl_video_urls(1)

crawl_robots(1)

data(1)

getfilename(1)

get3l_url(1)

post(1)

update(1)

startCrawl(1)

setworkdir(1)

setfilename(1)

setDaemon(1)

responseCallback(1)

parse_blog(1)

getSoup(1)

linkCallback(1)

levelCallback(1)

is_valid(1)

is_outgoing(1)

htmlCallback(1)

get_pdfs(1)

crawl_page_graph(1)

crawl_async_slots(1)

crawl_next_page_from_queue(1)

authorized(1)

Process(1)

ReturnValues(1)

Text(1)

Beispiel #1

Datei anzeigen

Datei: main.py Projekt: hybridtheorylink/spider

from spider import Spider
import _thread
import imageUtils
import strUtils
from lxml import etree
import webUtils

def downloadImg(url,nodes):
    imgs = nodes.xpath('//img/@src')
    for img in imgs:
        if(webUtils.adjustUrl(url,img) is None):continue
        try:
            _thread.start_new_thread(imageUtils.downloadImage,(img,))
        except Exception as e:
            print(e)

startUrsl = ['https://movie.douban.com/subject/3569910/']
netlocs = 'douban.com'
allows = ['.*douban.*']


spider1 = Spider(startUrls=startUrsl,netlocs=netlocs,allows=allows,callback=downloadImg)

spider1.startCrawl()