Python LinkExtractor.feed示例

编程语言: Python

命名空间/包名称: extractor

类/类型: LinkExtractor

方法/功能: feed

hotexamples.com的示例: 3

Python LinkExtractor.feed - 已找到3个示例。这些是从开源项目中提取的最受好评的extractor.LinkExtractor.feed现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

LinkExtractor(5)

feed(3)

update(1)

示例#1

显示文件

 def run(self):
     self.total_bytes = 0
     html_data = self._get_html(url=self.url)
     if html_data is None:
         return
     self.total_bytes += len(html_data)
     extractor = LinkExtractor(base_url=self.url)
     extractor.feed(html_data)
     for link in extractor.links:
         extra_data = self._get_html(url=link)
         if extra_data:
             self.total_bytes += len(extra_data)

示例#2

显示文件

 def run(self):
     self.total_bytes = 0
     html_data = self._get_html(url=self.url)
     if html_data is None:
         return
     self.total_bytes += len(html_data)
     if self.go_ahead:
         extractor = LinkExtractor(base_url=self.url)
         extractor.feed(html_data)
         sizers = [PageSizer(url=link, go_ahead=False) for link in extractor.links]
         for sizer in sizers:
             sizer.start()
         for sizer in sizers:
             sizer.join()
         for sizer in sizers:
             self.total_bytes += sizer.total_bytes

示例#3

显示文件

文件： 06_practice_03.py 项目： glotyuids/skillbox_learning

 def run(self):
     self.total_bytes = 0
     html_data = self._get_html(url=self.url)
     if html_data is None:
         return
     self.total_bytes += len(html_data)
     if self.go_ahead:
         extractor = LinkExtractor(base_url=self.url)
         extractor.feed(html_data)
         collector = multiprocessing.Queue()
         sizers = [PageSizer(url=link, go_ahead=False, collector=collector) for link in extractor.links]
         for sizer in sizers:
             sizer.start()
         for sizer in sizers:
             sizer.join()
         while not collector.empty():
             data = collector.get()
             self.total_bytes += data['total_bytes']
     self.collector.put(dict(url=self.url, total_bytes=self.total_bytes))