Python retry_get_html 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: crawler_utils

메소드/함수: retry_get_html

hotexamples.com에서의 예제들: 6

Python retry_get_html - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 crawler_utils.retry_get_html에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: xpath_utils.py 프로젝트: PegasusWang/collection_python

 def generate_category_urls(self):
     html = retry_get_html(self.domain)
     parser = etree.HTML(html)
     category_xpath_str = '//*[@id="nav"]/div/div/ul//a/@href'
     category_hrefs = parser.xpath(category_xpath_str)
     category_urls = []
     for href in category_hrefs:
         category_urls.append(urljoin(self.domain, href))
     for url in category_urls:
         parser = etree.HTML(retry_get_html(url))
         try:
             page_str = parser.xpath('//div[@class="cur"]/text()')[0]
             num = int(page_str.split('/')[1])
         except Exception:
             num = 1
         for page_num in range(1, num+1):
             yield url + '/%d.html' % page_num

예제 #2

파일 보기

파일: xpath_utils.py 프로젝트: ChinaArJun/Financial-Crawler

 def generate_category_urls(self):
     html = retry_get_html(self.domain)
     parser = etree.HTML(html)
     category_xpath_str = '//*[@id="nav"]/div/div/ul//a/@href'
     category_hrefs = parser.xpath(category_xpath_str)
     category_urls = []
     for href in category_hrefs:
         category_urls.append(urljoin(self.domain, href))
     for url in category_urls:
         parser = etree.HTML(retry_get_html(url))
         try:
             page_str = parser.xpath('//div[@class="cur"]/text()')[0]
             num = int(page_str.split('/')[1])
         except Exception:
             num = 1
         for page_num in range(1, num + 1):
             yield url + '/%d.html' % page_num

예제 #3

파일 보기

파일: xpath_utils.py 프로젝트: PegasusWang/collection_python

 def generate_item_urls(self):
     """遍历站点的目录页，返回所有目录页的商品url列表"""
     category_url_list = self.generate_category_urls()
     href_xpath = """//div[@id="prod_list"]//a[@class="pic_box"]/@href"""
     for category_url in category_url_list:
         html = retry_get_html(category_url)
         parser = etree.HTML(html)
         href_list = parser.xpath(href_xpath)
         for href in href_list:
             yield urljoin(self.domain, href)

예제 #4

파일 보기

파일: xpath_utils.py 프로젝트: ChinaArJun/Financial-Crawler

 def generate_item_urls(self):
     """遍历站点的目录页，返回所有目录页的商品url列表"""
     category_url_list = self.generate_category_urls()
     href_xpath = """//div[@id="prod_list"]//a[@class="pic_box"]/@href"""
     for category_url in category_url_list:
         html = retry_get_html(category_url)
         parser = etree.HTML(html)
         href_list = parser.xpath(href_xpath)
         for href in href_list:
             yield urljoin(self.domain, href)

예제 #5

파일 보기

파일: xpath_utils.py 프로젝트: PegasusWang/collection_python

 def html(self):
     return retry_get_html(self.url)

예제 #6

파일 보기

파일: xpath_utils.py 프로젝트: ChinaArJun/Financial-Crawler

 def html(self):
     return retry_get_html(self.url)