Python WebPage.get_anchors Exemples

Langage de programmation: Python

Espace de nommage/Pack: webpage

Class/Type: WebPage

Méthode/Fonction: get_anchors

Exemples au hotexamples.com: 2

Python WebPage.get_anchors - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de webpage.WebPage.get_anchors extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

WebPage(24)

applySettings(4)

filter_links(3)

get_anchors(2)

get_from_xpath(1)

update_timeout(1)

setParent(1)

scriptLookupDir(1)

retrieve(1)

request_timeout(1)

parseLinks(1)

name(1)

get_assets(1)

get_data(1)

get_all_text(1)

getContent(1)

fetch(1)

extract(1)

description(1)

data_offset(1)

current(1)

url(1)

Méthodes fréquemment utilisées

WebPage (24)

applySettings (4)

filter_links (3)

get_anchors (2)

get_from_xpath (1)

update_timeout (1)

setParent (1)

scriptLookupDir (1)

retrieve (1)

request_timeout (1)

Méthodes fréquemment utilisées

parseLinks (1)

name (1)

get_assets (1)

get_data (1)

get_all_text (1)

getContent (1)

fetch (1)

extract (1)

description (1)

data_offset (1)

current (1)

url (1)

Méthodes fréquemment utilisées

current (1)

url (1)

Exemple #1

0

Afficher le fichier

def crawl(self): while len(self.url_queue) > 0 and len( self.discovered) <= self.MAX_LINKS_TO_VISIT: url = self.url_queue.popleft() if 'DEBUG' in os.environ: print "Queue Size:", len(self.url_queue) print "Fetching: ", url webpage = WebPage(url) self.unvisited[url] = False all_links = webpage.get_anchors( False) # False: dont keep fragments all_assets = webpage.get_assets() self.assets.append({'url': url, 'assets': all_assets}) for link in all_links: # if belongs to same domain & is not already discovered if self.same_domain_rule.matches( link) and self.discovered[link.geturl()] is None: self.discovered[link.geturl()] = True # process if not already in the queue if self.unvisited[link.geturl()] is None: self.url_queue.append(link.geturl()) self.unvisited[link.geturl()] = True

Exemple #2

0

Afficher le fichier

Fichier : test_webpage.py Projet : 64bit/web-crawler

def test_file_links(self): self.start_server(TestWebPage.FILE_LINKS_HTML) webpage = WebPage(TestWebPage.SERVER) self.assertEqual(0, len(webpage.get_js())) self.assertEqual(0, len(webpage.get_stylesheets())) self.assertEqual(0, len(webpage.get_links())) self.assertEqual(2, len(webpage.get_anchors())) self.assertEqual(0, len(webpage.get_images())) self.assertEqual(2, len(webpage.get_files()))