Python valid_a_href Beispiele

Programmiersprache: Python

Namespace / Paketname: util

Methode / Funktion: valid_a_href

Beispiele auf hotexamples.com: 2

Python valid_a_href - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die util.valid_a_href, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Beispiel #1

Datei anzeigen

Datei: hub_extractor.py Projekt: shenxiangq/news_crawler

 def extract(self, body, url):
     tree = lxml.html.document_fromstring(body)
     a_elements = tree.xpath("//a")
     urls = valid_a_href(a_elements)
     self.save_result(url, urls)
     not_exist = self.url_dedup.insert_not_exist(urls)
     self.logger.info("not exist urls. urls=%s" % str(not_exist))
     return not_exist

Beispiel #2

Datei anzeigen

Datei: mining_crawler.py Projekt: shenxiangq/news_crawler

 def process_body(self, body, task):
     url = task.get('url')
     #print url, body[:100][:1000]
     body_size = len(body)
     body = to_unicode(body)
     body.replace('<?xml version="1.0" encoding="utf-8"?>', '')
     #body = self.cleaner.clean_html(body)
     self.logger.info("page body, url:%s, body:%s" % (url, body[:100]))
     self.db_helper.save_mining_result(body, body_size, task)
     if task.get('depth') <= self.maxdepth:
         tree = lxml.html.document_fromstring(body)
         a_elements = tree.xpath('//a')
         #import pdb;pdb.set_trace()
         urls = valid_a_href(a_elements, url)
         not_exist = self.url_dedup.insert_not_exist(urls)
         #self.db_helper.insert_mining_task(task, urls)
         self.db_helper.insert_mining_task(task, not_exist)