Python url_is_from_spider Exemples, scrapy.utils.url.url_is_from_spider Python Exemples

Exemple #1

0

Afficher le fichier

Fichier : test_utils_url.py Projet : 01-/scrapy

 def test_url_is_from_spider_class_attributes(self):
     class MySpider(Spider):
         name = 'example.com'
     self.assertTrue(url_is_from_spider('http://www.example.com/some/page.html', MySpider))
     self.assertTrue(url_is_from_spider('http://sub.example.com/some/page.html', MySpider))
     self.assertFalse(url_is_from_spider('http://www.example.org/some/page.html', MySpider))
     self.assertFalse(url_is_from_spider('http://www.example.net/some/page.html', MySpider))

Exemple #2

0

Afficher le fichier

Fichier : test_utils_url.py Projet : pyarnold/scrapy

 def test_url_is_from_spider(self):
     spider = Spider(name='example.com')
     self.assertTrue(
         url_is_from_spider('http://www.example.com/some/page.html', spider))
     self.assertTrue(
         url_is_from_spider('http://sub.example.com/some/page.html', spider))
     self.assertFalse(
         url_is_from_spider('http://www.example.org/some/page.html', spider))
     self.assertFalse(
         url_is_from_spider('http://www.example.net/some/page.html', spider))

Exemple #3

0

Afficher le fichier

Fichier : test_utils_url.py Projet : pyarnold/scrapy

    def test_url_is_from_spider_with_allowed_domains(self):
        spider = Spider(
            name='example.com', allowed_domains=['example.org', 'example.net'])
        self.assertTrue(
            url_is_from_spider('http://www.example.com/some/page.html', spider))
        self.assertTrue(
            url_is_from_spider('http://sub.example.com/some/page.html', spider))
        self.assertTrue(
            url_is_from_spider('http://example.com/some/page.html', spider))
        self.assertTrue(
            url_is_from_spider('http://www.example.org/some/page.html', spider))
        self.assertTrue(
            url_is_from_spider('http://www.example.net/some/page.html', spider))
        self.assertFalse(
            url_is_from_spider('http://www.example.us/some/page.html', spider))

        spider = Spider(
            name='example.com', allowed_domains=set(('example.com', 'example.net')))
        self.assertTrue(
            url_is_from_spider('http://www.example.com/some/page.html', spider))

        spider = Spider(
            name='example.com', allowed_domains=('example.com', 'example.net'))
        self.assertTrue(
            url_is_from_spider('http://www.example.com/some/page.html', spider))

Exemple #4

0

Afficher le fichier

    def test_url_is_from_spider_class_attributes(self):
        class MySpider(Spider):
            name = 'example.com'

        self.assertTrue(
            url_is_from_spider('http://www.example.com/some/page.html',
                               MySpider))
        self.assertTrue(
            url_is_from_spider('http://sub.example.com/some/page.html',
                               MySpider))
        self.assertFalse(
            url_is_from_spider('http://www.example.org/some/page.html',
                               MySpider))
        self.assertFalse(
            url_is_from_spider('http://www.example.net/some/page.html',
                               MySpider))

Exemple #5

0

Afficher le fichier

Fichier : url.py Projet : bright-pan/ebooks

 def process_response(self, request, response, spider):
     if isinstance(response, HtmlResponse) and response.body and getattr(spider, 'follow_canonical_links', False):
         rel_canonical = self._extractor.extract_links(response)
         if rel_canonical:
             rel_canonical = rel_canonical[0].url
             if rel_canonical != request.url and url_is_from_spider(rel_canonical, spider):
                 log.msg("Redirecting (rel=\"canonical\") to %s from %s" % (rel_canonical, request), level=log.DEBUG, spider=spider)
                 return request.replace(url=rel_canonical, callback=lambda r: r if r.status == 200 else response)
     return response

Exemple #6

0

Afficher le fichier

Fichier : canonical.py Projet : nyov/scrapyext

 def process_response(self, request, response, spider):
     if isinstance(response, HtmlResponse) and response.body and getattr(spider, 'follow_canonical_links', False):
         rel_canonical = self._extractor.extract_links(response)
         if rel_canonical:
             rel_canonical = rel_canonical[0].url
             if rel_canonical != request.url and url_is_from_spider(rel_canonical, spider):
                 log.msg("Redirecting (rel=\"canonical\") to %s from %s" % (rel_canonical, request), level=log.DEBUG, spider=spider)
                 return request.replace(url=rel_canonical, callback=lambda r: r if r.status == 200 else response)
     return response

Exemple #7

0

Afficher le fichier

Fichier : test_utils_url.py Projet : lopuhin/scrapy

    def test_url_is_from_spider_with_allowed_domains(self):
        spider = Spider(name="example.com", allowed_domains=["example.org", "example.net"])
        self.assertTrue(url_is_from_spider("http://www.example.com/some/page.html", spider))
        self.assertTrue(url_is_from_spider("http://sub.example.com/some/page.html", spider))
        self.assertTrue(url_is_from_spider("http://example.com/some/page.html", spider))
        self.assertTrue(url_is_from_spider("http://www.example.org/some/page.html", spider))
        self.assertTrue(url_is_from_spider("http://www.example.net/some/page.html", spider))
        self.assertFalse(url_is_from_spider("http://www.example.us/some/page.html", spider))

        spider = Spider(name="example.com", allowed_domains=set(("example.com", "example.net")))
        self.assertTrue(url_is_from_spider("http://www.example.com/some/page.html", spider))

        spider = Spider(name="example.com", allowed_domains=("example.com", "example.net"))
        self.assertTrue(url_is_from_spider("http://www.example.com/some/page.html", spider))

Exemple #8

0

Afficher le fichier

    def test_url_is_from_spider_with_allowed_domains(self):
        spider = Spider(name='example.com', allowed_domains=['example.org', 'example.net'])
        self.assertTrue(url_is_from_spider('http://www.example.com/some/page.html', spider))
        self.assertTrue(url_is_from_spider('http://sub.example.com/some/page.html', spider))
        self.assertTrue(url_is_from_spider('http://example.com/some/page.html', spider))
        self.assertTrue(url_is_from_spider('http://www.example.org/some/page.html', spider))
        self.assertTrue(url_is_from_spider('http://www.example.net/some/page.html', spider))
        self.assertFalse(url_is_from_spider('http://www.example.us/some/page.html', spider))

        spider = Spider(name='example.com', allowed_domains=set(('example.com', 'example.net')))
        self.assertTrue(url_is_from_spider('http://www.example.com/some/page.html', spider))

        spider = Spider(name='example.com', allowed_domains=('example.com', 'example.net'))
        self.assertTrue(url_is_from_spider('http://www.example.com/some/page.html', spider))

Exemple #9

0

Afficher le fichier

Fichier : spidermanager.py Projet : serkanh/scrapy

 def fromurl(self, url):
     if self.force_domain:
         return self._spiders.get(self.force_domain)
     domain = urlparse.urlparse(url).hostname
     domain = str(domain).replace('www.', '')
     if domain:
         if domain in self._spiders:         # try first locating by domain
             return self._spiders[domain]
         else:                               # else search spider by spider
             plist = self._spiders.values()
             for p in plist:
                 if url_is_from_spider(url, p):
                     return p

Exemple #10

0

Afficher le fichier

Fichier : snippet_downloader_middleware.py Projet : JensAldinger/Heizung

     def process_response(self, request, response, spider):
         if isinstance(response, HtmlResponse) and response.body and getattr(spider, 'follow_canonical_links', False):
             rel_canonical = self._extractor.extract_links(response)
             if rel_canonical:
                 rel_canonical = rel_canonical[0].url
                 if rel_canonical != request.url and url_is_from_spider(rel_canonical, spider):
                     log.msg("Redirecting (rel=\"canonical\") to %s from %s" % (rel_canonical, request), level=log.DEBUG, spider=spider)
                     return request.replace(url=rel_canonical, callback=lambda r: r if r.status == 200 else response)
         return response
  
 # Snippet imported from snippets.scrapy.org (which no longer works)
 # author: pablo
 # date  : Aug 27, 2010

Exemple #11

0

Afficher le fichier

 def test_url_is_from_spider_with_allowed_domains_class_attributes(self):
     class MySpider(Spider):
         name = 'example.com'
         allowed_domains = ('example.org', 'example.net')
     self.assertTrue(url_is_from_spider('http://www.example.com/some/page.html', MySpider))
     self.assertTrue(url_is_from_spider('http://sub.example.com/some/page.html', MySpider))
     self.assertTrue(url_is_from_spider('http://example.com/some/page.html', MySpider))
     self.assertTrue(url_is_from_spider('http://www.example.org/some/page.html', MySpider))
     self.assertTrue(url_is_from_spider('http://www.example.net/some/page.html', MySpider))
     self.assertFalse(url_is_from_spider('http://www.example.us/some/page.html', MySpider))

Exemple #12

0

Afficher le fichier

Fichier : test_utils_url.py Projet : ethanfine/oh-mainline

    def test_url_is_from_spider_with_allowed_domains_class_attributes(self):
        class MySpider(BaseSpider):
            name = "example.com"
            allowed_domains = ["example.org", "example.net"]

        self.assertTrue(url_is_from_spider("http://www.example.com/some/page.html", MySpider))
        self.assertTrue(url_is_from_spider("http://sub.example.com/some/page.html", MySpider))
        self.assertTrue(url_is_from_spider("http://example.com/some/page.html", MySpider))
        self.assertTrue(url_is_from_spider("http://www.example.org/some/page.html", MySpider))
        self.assertTrue(url_is_from_spider("http://www.example.net/some/page.html", MySpider))
        self.assertFalse(url_is_from_spider("http://www.example.us/some/page.html", MySpider))

Exemple #13

0

Afficher le fichier

Fichier : spider.py Projet : 535521469/crawler_sth

 def handles_request(cls, request):
     return url_is_from_spider(request.url, cls)

Exemple #14

0

Afficher le fichier

Fichier : spider.py Projet : ddesign84/scrapy

 def handles_request(cls, request):
     """
     判断当前请求的URL是否属于当前蜘蛛
     allowed_domains
     """
     return url_is_from_spider(request.url, cls)

Exemple #15

0

Afficher le fichier

Fichier : spidermanager.py Projet : kenzouyeh/scrapy

 def find_by_request(self, request):
     """Returns list of spiders names that match the given Request"""
     return [name for name, spider in self._spiders.iteritems()
             if url_is_from_spider(request.url, spider)]

Exemple #16

0

Afficher le fichier

 def test_url_is_from_spider(self):
     spider = Spider(name='example.com')
     self.assertTrue(url_is_from_spider('http://www.example.com/some/page.html', spider))
     self.assertTrue(url_is_from_spider('http://sub.example.com/some/page.html', spider))
     self.assertFalse(url_is_from_spider('http://www.example.org/some/page.html', spider))
     self.assertFalse(url_is_from_spider('http://www.example.net/some/page.html', spider))

Exemple #17

0

Afficher le fichier

 def handles_request(cls, request):
     return url_is_from_spider(request.url, cls)

Exemple #18

0

Afficher le fichier

Fichier : test_utils_url.py Projet : ethanfine/oh-mainline

 def test_url_is_from_spider(self):
     spider = BaseSpider(name="example.com")
     self.assertTrue(url_is_from_spider("http://www.example.com/some/page.html", spider))
     self.assertTrue(url_is_from_spider("http://sub.example.com/some/page.html", spider))
     self.assertFalse(url_is_from_spider("http://www.example.org/some/page.html", spider))
     self.assertFalse(url_is_from_spider("http://www.example.net/some/page.html", spider))