Python WebPage.get_anchors Beispiele

Programmiersprache: Python

Namespace / Paketname: webpage

Klasse / Typ: WebPage

Methode / Funktion: get_anchors

Beispiele auf hotexamples.com: 2

Python WebPage.get_anchors - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die webpage.WebPage.get_anchors, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

WebPage(24)

applySettings(4)

filter_links(3)

get_anchors(2)

get_from_xpath(1)

update_timeout(1)

setParent(1)

scriptLookupDir(1)

retrieve(1)

request_timeout(1)

parseLinks(1)

name(1)

get_assets(1)

get_data(1)

get_all_text(1)

getContent(1)

fetch(1)

extract(1)

description(1)

data_offset(1)

current(1)

url(1)

Beispiel #1

Datei anzeigen

    def crawl(self):

        while len(self.url_queue) > 0 and len(
                self.discovered) <= self.MAX_LINKS_TO_VISIT:
            url = self.url_queue.popleft()

            if 'DEBUG' in os.environ:
                print "Queue Size:", len(self.url_queue)
                print "Fetching: ", url

            webpage = WebPage(url)
            self.unvisited[url] = False

            all_links = webpage.get_anchors(
                False)  # False: dont keep fragments
            all_assets = webpage.get_assets()
            self.assets.append({'url': url, 'assets': all_assets})

            for link in all_links:

                # if belongs to same domain & is not already discovered
                if self.same_domain_rule.matches(
                        link) and self.discovered[link.geturl()] is None:
                    self.discovered[link.geturl()] = True
                    # process if not already in the queue
                    if self.unvisited[link.geturl()] is None:
                        self.url_queue.append(link.geturl())
                        self.unvisited[link.geturl()] = True

Beispiel #2

Datei anzeigen

Datei: test_webpage.py Projekt: 64bit/web-crawler

 def test_file_links(self):
     self.start_server(TestWebPage.FILE_LINKS_HTML)
     webpage = WebPage(TestWebPage.SERVER)
     self.assertEqual(0, len(webpage.get_js()))
     self.assertEqual(0, len(webpage.get_stylesheets()))
     self.assertEqual(0, len(webpage.get_links()))
     self.assertEqual(2, len(webpage.get_anchors()))
     self.assertEqual(0, len(webpage.get_images()))
     self.assertEqual(2, len(webpage.get_files()))