Python TylCrawlerPage Exemples

Langage de programmation: Python

Espace de nommage/Pack: page

Class/Type: TylCrawlerPage

Exemples au hotexamples.com: 2

Python TylCrawlerPage - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de page.TylCrawlerPage extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

cookieJar(1)

getLinks(1)

level(1)

setReferer(1)

Méthodes fréquemment utilisées

cookieJar (1)

getLinks (1)

level (1)

setReferer (1)

Associées

parse

scale_rating

decode

hash_list

TuringMachineParser

date_fmt

pos_action_in_url

tree_gen

protect_filename

get_service

Related in langs

salvar_cookies (PHP)

item_base_to_string (PHP)

UdpDiscoveryEndpoint (C#)

UpdateRequest (C#)

X509_VERIFY_PARAM_set_flags (C++)

strFullName (C++)

av_grow_packet (Go)

NewPub (Go)

DateJsonUnmarshaller (Java)

IndexInfo (Java)

Exemple #1

0

Afficher le fichier

Fichier : crawler.py Projet : zhangjiayin/taoyanli

def crawl(self, url,fun, deep=5): page = TylCrawlerPage(url=url) fetcher = TylCrawlerFetcher() pages = [] pages.append([page]) try: for i in range(deep): pn = [] for p in pages[i]: fetcher.fetch(p) p.fetcher = fetcher links = p.getLinks(self.host) fun(p) if hasattr(self, "sleepSec"): time.sleep(self.sleepSec) if (i+1) == deep: continue for link in links: link = self.fixUrl(link) if self.urlCrawled(link): continue; self.crawledList.append(link) pchild = TylCrawlerPage(url=link) pchild.setReferer(p.url) pchild.cookieJar = p.cookieJar pchild.level = i+1 pn.append(pchild) #print link pages.append(pn) except ValueError as e: print e

Exemple #2

0

Afficher le fichier

Fichier : fetcher.py Projet : zhangjiayin/taoyanli

page.fetched = True if not hasattr(page, "url"): return None try: req = urllib2.Request(page.url) for x in page.headers: req.add_header(x, page.headers[x]) if page.cookieJar is None: page.cookieJar = cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(page.cookieJar)) r = opener.open(req,timeout=self.timeout) response = r.read() page.code = r.getcode() page.content = response for header in r.info().headers: pair = header.split(":") headerKey = pair[0].strip() headerValue = pair[1].strip() page.responseHeaders[headerKey] = headerValue except Exception,e: print e if __name__ == "__main__": from page import TylCrawlerPage fetcher = TylFetcher() page = TylCrawlerPage(url="http://www.okbuy.com/") fetcher.fetch(page) page.code page.getLinks()