Python LinkAnnotation示例

编程语言: Python

命名空间/包名称: page_finder

类/类型: LinkAnnotation

hotexamples.com的示例: 5

Python LinkAnnotation - 已找到5个示例。这些是从开源项目中提取的最受好评的page_finder.LinkAnnotation现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

LinkAnnotation(2)

best_links_to_follow(1)

load(1)

mark_link(1)

示例#1

显示文件

文件： pagination.py 项目： userimack/portia

class PaginationExtractor(HtmlLinkExtractor):
    def __init__(self):
        self.link_annotation = LinkAnnotation()
        self.visited = set()
        self.url_to_link = {}
        super(PaginationExtractor, self).__init__()

    def _extract_links(self, response_or_htmlpage, n_links=3):
        self.visited.add(response_or_htmlpage.url)
        new_links = list(
            super(PaginationExtractor,
                  self)._extract_links(response_or_htmlpage))
        for link in new_links:
            self.url_to_link[link.url] = link
        self.link_annotation.load(link.url for link in new_links)
        if isinstance(response_or_htmlpage, Response):
            n_items = response_or_htmlpage.meta.get('n_items')
        else:
            n_items = response_or_htmlpage.headers.get('n_items')
        if n_items is not None:
            self.link_annotation.mark_link(response_or_htmlpage.url,
                                           follow=(n_items > 0))
        best = self.link_annotation.best_links_to_follow()
        if best:
            pages = []
            for url in best:
                if url not in self.visited:
                    pages.append(self.url_to_link[url]
                                 )  # TODO: extract only the best link?
                    if len(pages) == n_links:
                        return pages
        return new_links

示例#2

显示文件

文件： pagination.py 项目： bowlofstew/portia

class PaginationExtractor(HtmlLinkExtractor):
    def __init__(self):
        self.link_annotation = LinkAnnotation()
        self.visited = set()
        self.url_to_link = {}
        super(PaginationExtractor, self).__init__()

    def _extract_links(self, response_or_htmlpage, n_links=3):
        self.visited.add(response_or_htmlpage.url)
        new_links = list(
            super(PaginationExtractor, self)._extract_links(response_or_htmlpage))
        for link in new_links:
            self.url_to_link[link.url] = link
        self.link_annotation.load(link.url for link in new_links)
        if isinstance(response_or_htmlpage, Response):
            n_items = response_or_htmlpage.meta.get('n_items')
        else:
            n_items = response_or_htmlpage.headers.get('n_items')
        if n_items is not None:
            self.link_annotation.mark_link(
                response_or_htmlpage.url, follow=(n_items > 0))
        best = self.link_annotation.best_links_to_follow()
        if best:
            pages = []
            for url in best:
                if url not in self.visited:
                    pages.append(self.url_to_link[url]) # TODO: extract only the best link?
                    if len(pages) == n_links:
                        return pages
        return new_links

示例#3

显示文件

 def __init__(self, **specs):
     self.link_annotation = LinkAnnotation()
     self.visited = set()
     self.url_to_link = {}
     start_urls = specs.get('start_urls')
     if start_urls:
         self.link_annotation.load(start_urls)
         for url in start_urls:
             self.url_to_link[url] = Link(url)
             self.visited.add(url)
             self.link_annotation.mark_link(url, follow=True)
     super(PaginationExtractor, self).__init__()

示例#4

显示文件

文件： pagination.py 项目： userimack/portia

 def __init__(self):
     self.link_annotation = LinkAnnotation()
     self.visited = set()
     self.url_to_link = {}
     super(PaginationExtractor, self).__init__()

示例#5

显示文件

文件： pagination.py 项目： bowlofstew/portia

 def __init__(self):
     self.link_annotation = LinkAnnotation()
     self.visited = set()
     self.url_to_link = {}
     super(PaginationExtractor, self).__init__()