Python webgraphItem Beispiele

Programmiersprache: Python

Namespace / Paketname: scrapy_webgraph.items

Methode / Funktion: webgraphItem

Beispiele auf hotexamples.com: 2

Python webgraphItem - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die scrapy_webgraph.items.webgraphItem, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Beispiel #1

Datei anzeigen

Datei: webgraph_perso.py Projekt: brozi/webpage-graph

 def parse_item(self, response):
     hxs = HtmlXPathSelector(response)
     i = webgraphItem()
     i['node'] = response.url
     print "#######################"
     print response.url
     print "#######################"
    # i['http_status'] = response.status
     llinks=[]
     for anchor in hxs.select('//a[@href]'):
         href=anchor.select('@href').extract()[0]
         if not href.lower().startswith("javascript") and  href.startswith("http://perso.ens-lyon.fr/baptiste.roziere/"):
             llinks.append(urljoin_rfc(response.url,href))
     i['edge'] = llinks
     return i

Beispiel #2

Datei anzeigen

Datei: webgraph.py Projekt: brozi/webpage-graph

 def parse_item(self, response):
     hxs = HtmlXPathSelector(response)
     i = webgraphItem()
     i['node'] = response.url
     print "#######################"
     print response.url
     print "#######################"
    # i['http_status'] = response.status
     llinks=[]
     seen = {}
     for anchor in hxs.select('//a[@href]'):
         href=anchor.select('@href').extract()[0]
         if href.startswith("http://www.cdiscount.com") and not (href in seen):
             seen[href]=True
             llinks.append(urljoin_rfc(response.url,href))
     i['edge'] = llinks
     return i