Python uniqueの例

プログラミング言語: Python

名前空間/パッケージ名: scrapy.utils.python

メソッド/関数: unique

hotexamples.comのコード掲載数: 6

Python unique - 6件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのscrapy.utils.python.uniqueの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: spiders.py プロジェクト: inferlinkdev/undercrawler

 def _pagination_urls(self, response):
     return [
         url for url in unique(
             canonicalize_url(url, keep_fragments=True)
             for url in autopager.urls(response))
         if self.link_extractor.matches(url)
     ]

コード例 #2

ファイルを表示

ファイル: base_spider.py プロジェクト: barravi/undercrawler

 def _pagination_urls(self, response):
     return [
         url for url in
         unique(
             canonicalize_url(url, keep_fragments=True)
             for url in autopager.urls(response)
         )
         if self.link_extractor.matches(url)
         ]

コード例 #3

ファイルを表示

ファイル: utils.py プロジェクト: matthieucham/scrapynuts

 def extract_links(self, response):
     base_url = get_base_url(response)
     if self.restrict_xpaths:
         docs = [subdoc
                 for x in self.restrict_xpaths
                 for subdoc in response.xpath(x)]
     else:
         docs = [response.selector]
     all_links = []
     for doc in docs:
         links = self._extract_links(doc, response.url, response.encoding, base_url)
         all_links.extend(self._process_links(links))
     return unique(all_links)

コード例 #4

ファイルを表示

ファイル: linksextractors.py プロジェクト: hoangminhitvn/scraper

 def extract_links(self, response):
     from scrapy_balloons.spiders.balloon import balloon_spider
     url_info = urlparse(response.url)
     base_url = balloon_spider.base_url
     if base_url and len(base_url.strip()) == 0:
         base_url = "%s://%s" % (url_info.scheme, url_info.netloc)
     all_links = []
     if self.allow_res:
         for allow_re in self.allow_res:
             all_links = all_links + allow_re.findall(response.body)
     ## run process value see #LxmlParserLinkExtractor
     all_links = [self.link_extractor.process_attr(url) for url in all_links if self.link_extractor.process_attr(url) is not None]
     all_links = [Link(urljoin(base_url, url), "") for url in all_links]
     return unique(all_links)

コード例 #5

ファイルを表示

ファイル: dm.py プロジェクト: yankaics/campuspiders

    def _extract_links(self, response_text, response_url):
        html = lxml.html.fromstring(response_text)
        html.make_links_absolute(response_url)
        sel = pyquery.PyQuery(html)

        evt_links = sel('.news > li:not(.more) > a')
        ann_links = sel('.announcement > li:not(.more) > a')

        all_links = [
            Link(elem.attrib['href'], text=elem.text)
            for elem in itertools.chain(evt_links, ann_links)
        ]

        return unique(all_links, key=lambda link: link.url)

コード例 #6

ファイルを表示

ファイル: dm.py プロジェクト: lhproject/campuspiders

    def _extract_links(self, response_text, response_url):
        html = lxml.html.fromstring(response_text)
        html.make_links_absolute(response_url)
        sel = pyquery.PyQuery(html)

        evt_links = sel('.news > li:not(.more) > a')
        ann_links = sel('.announcement > li:not(.more) > a')

        all_links = [
                Link(elem.attrib['href'], text=elem.text)
                for elem in itertools.chain(evt_links, ann_links)
                ]

        return unique(all_links, key=lambda link: link.url)