Python url_allowed 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: app.verify

메소드/함수: url_allowed

hotexamples.com에서의 예제들: 6

Python url_allowed - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 app.verify.url_allowed에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: test_crawler.py 프로젝트: koolkt/python_crawler

 def test_roots(self):
     crawler = crawling.Crawler(['http://a', 'http://b', 'not-a-host'],
                                loop=self.loop)
     self.addCleanup(crawler.close)
     self.assertTrue(verify.url_allowed("http://a/a", crawler.root_domains))
     self.assertTrue(verify.url_allowed("http://b/b", crawler.root_domains))
     self.assertFalse(verify.url_allowed("http://c/c", crawler.root_domains))
     self.assertFalse(verify.url_allowed("http://127.0.0.1", crawler.root_domains))

예제 #2

파일 보기

파일: crawling.py 프로젝트: koolkt/python_crawler

    def parse_links(self, web_page_html, base_url, _content_type, _encoding):
        """Return a list of links."""
        links = set()
        tree = html.fromstring(web_page_html)
        tree.make_links_absolute(base_url)
        urls = [link[2] for link in tree.iterlinks()]
        for url in urls:
            defragmented, frag = urllib.parse.urldefrag(url)
            if verify.url_allowed(
                defragmented, self.root_domains, exclude=self.exclude
            ):  # Select Valid links, testing against regexp and root_domains
                links.add(defragmented)
        if urls:
            LOGGER.info(
                "got %r urls from %r new links: %i visited: %i",
                len(urls),
                base_url,
                len(links - self.seen_urls),
                len(self.seen_urls),
            )
        new_links = [link for link in links.difference(self.seen_urls)]

        self.record_statistic(
            url=base_url,
            content_type=_content_type,
            encoding=_encoding,
            num_urls=len(links),
            num_new_urls=len(links - self.seen_urls),
        )
        return new_links

예제 #3

파일 보기

    def parse_links(self, web_page_html, base_url, _content_type, _encoding):
        """Return a list of links."""
        links = set()
        tree = html.fromstring(web_page_html)
        tree.make_links_absolute(base_url)
        urls = [link[2] for link in tree.iterlinks()]
        for url in urls:
            defragmented, frag = urllib.parse.urldefrag(url)
            if verify.url_allowed(
                    defragmented, self.root_domains, exclude=self.exclude
            ):  # Select Valid links, testing against regexp and root_domains
                links.add(defragmented)
        if urls:
            LOGGER.info('got %r urls from %r new links: %i visited: %i',
                        len(urls), base_url, len(links - self.seen_urls),
                        len(self.seen_urls))
        new_links = [link for link in links.difference(self.seen_urls)]

        self.record_statistic(url=base_url,
                              content_type=_content_type,
                              encoding=_encoding,
                              num_urls=len(links),
                              num_new_urls=len(links - self.seen_urls))
        return new_links

예제 #4

파일 보기

파일: test_crawler.py 프로젝트: koolkt/python_crawler

 def test_deep_root(self):
     # Make sure 'a' is a root domain if the root is a link deep in 'a'.
     crawler = crawling.Crawler(['http://a/a#fragment'], loop=self.loop)
     self.addCleanup(crawler.close)
     self.assertTrue(verify.url_allowed("http://a/b", crawler.root_domains))

예제 #5

파일 보기

파일: test_crawler.py 프로젝트: koolkt/python_crawler

 def test_exclude(self):
     crawler = crawling.Crawler(['http://example.com'],
                                exclude=r'.*pattern', loop=self.loop)
     self.addCleanup(crawler.close)
     self.assertTrue(verify.url_allowed("http://example.com", crawler.root_domains, exclude=crawler.exclude))
     self.assertFalse(verify.url_allowed("http://example.com/pattern", crawler.root_domains, exclude=crawler.exclude))

예제 #6

파일 보기

파일: test_crawler.py 프로젝트: koolkt/python_crawler

 def test_lenient_host_checking(self):
     crawler = crawling.Crawler(['http://example.com'], strict=False,
                                loop=self.loop)
     self.addCleanup(crawler.close)
     self.assertTrue(verify.url_allowed("http://www.example.com", crawler.root_domains, strict=False))
     self.assertTrue(verify.url_allowed("http://foo.example.com", crawler.root_domains, strict=False))