Python Spider.get_content示例

编程语言: Python

命名空间/包名称: common.spider

类/类型: Spider

方法/功能: get_content

hotexamples.com的示例: 2

Python Spider.get_content - 已找到2个示例。这些是从开源项目中提取的最受好评的common.spider.Spider.get_content现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Spider(5)

get_content(2)

download_image(1)

driver(1)

find_ele_by_css(1)

find_eles_by_css(1)

get_movies(1)

max_page_count(1)

next_page(1)

next_page_element_css(1)

replace(1)

示例#1

显示文件

 def get_chapter_content(self, index, url):
     _url = url
     try:
         bookdirpath = os.path.join(self.path, self.bookname)
         file_name = '%05d' % (index + 1)
         file_name = 'chapter_' + file_name + '.xhtml'
         folder = os.path.exists(os.path.join(bookdirpath, file_name))
         if folder:
             self.mutex.acquire()
             self.num += 1
             percent = self.num * 100.0 / len(self.chapters)
             _str = '%s [%.2f%%] (%d/%d) %d 已存在！' % (
                 self.bookname, percent, self.num, len(
                     self.chapters), index)
             # _str = '%s [%.2f%%] %s 已存在！' % (self.bookname, percent, self.chapters[index]["title"])
             print('\r%s' % _str, )
             sys.stdout.flush()
             self.mutex.release()
             return
         if self.settings['page']['link_concat']:
             _url = self.settings['home'] + url
         html = Spider.get_content(_url)
         if self.settings['chapter']['gzip']:
             html = zlib.decompress(html, zlib.MAX_WBITS | 16)
         html = html.decode(self.settings['decode'], 'ignore')
     except Exception as e:
         self.mutex.acquire()
         # print '\r%s %s ' % (_url, e.message),
         print('%s %s' % (_url, str(e)))
         sys.stdout.flush()
         self.mutex.release()
         time.sleep(1)
         self.get_chapter_content(index, url)
         return
     html = html.replace('xmlns="http://www.w3.org/1999/xhtml" /',
                         '').replace('xmlns="http://www.w3.org/1999/xhtml"',
                                     '')
     doc = pq(html)
     if self.settings['chapter']['rm_eles']:
         for cur in self.settings['chapter']['rm_eles']:
             doc(cur).remove()
     self.create_chapter(index,
                         doc(self.settings['chapter']['content']).html())

示例#2

显示文件

 def get_html(self):
     html = Spider.get_content(self.url).decode('utf-8', 'ignore')
     with open('file/weather.html', mode='w', encoding='utf-8') as f:
         f.write(html)
     doc = pq(html)