Esempi in Python per CustomScraper

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: spiders.scrapers

Classe/tipologia: CustomScraper

Esempi su hotexamples.com: 5

CustomScraper in Python: 5 esempi trovati. Questi sono i migliori esempi reali in Python per spiders.scrapers.CustomScraper, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

CustomScraper(2)

parse_item(1)

Esempio n. 1

Mostra file

File: test_scraper.py Progetto: hoardboard/scraper

class TestCustomScraper(unittest.TestCase):
    def setUp(self):
        self.body = open(
            os.path.join(os.path.dirname(__file__),
                         "test_pages/dmoz_index.html"), "r").read()
        self.url = "http://www.example.com/"
        self.request = Request(self.url)
        self.response = TextResponse(self.url,
                                     request=self.request,
                                     body=self.body,
                                     encoding='utf-8')
        self.scraper = CustomScraper(index="test_index",
                                     start_urls=[self.url],
                                     parser_string="//a",
                                     parser_dict={
                                         "text": "text()",
                                         "link": "@href",
                                     })

    def test_parse(self):
        parsed = list(self.scraper.parse_item(self.response))
        assert parsed[1] == {
            'text': [u'about dmoz'],
            'link': [u'http://www.dmoz.org/docs/en/about.html']
        }

Esempio n. 2

Mostra file

File: test_scraper.py Progetto: hoardboard/scraper

 def setUp(self):
     self.body = open(
         os.path.join(os.path.dirname(__file__),
                      "test_pages/dmoz_index.html"), "r").read()
     self.url = "http://www.example.com/"
     self.request = Request(self.url)
     self.response = TextResponse(self.url,
                                  request=self.request,
                                  body=self.body,
                                  encoding='utf-8')
     self.scraper = CustomScraper(index="test_index",
                                  start_urls=[self.url],
                                  parser_string="//a",
                                  parser_dict={
                                      "text": "text()",
                                      "link": "@href",
                                  })

Esempio n. 3

Mostra file

File: test_pipeline.py Progetto: hoardboard/scraper

 def setUp(self):
     self.es = Elasticsearch()
     self.pipeline = ElasticsearchPipeline()
     self.spider = CustomScraper(
         index="test_index",
         start_urls=["http://www.dmoz.org"],
         parser_string="//a",
         parser_dict={
             "text": "text()",
             "link": "@href",
         }
     )
     self.pipeline.open_spider(self.spider)

Esempio n. 4

Mostra file

File: test_scraper.py Progetto: ContinuumIO/scrapy_scrapers

 def setUp(self):
     self.body = open(os.path.join(os.path.dirname(__file__),
         "test_pages/dmoz_index.html"), "r").read()
     self.url = "http://www.example.com/"
     self.request = Request(self.url)
     self.response = TextResponse(self.url, request=self.request, body=self.body, encoding='utf-8')
     self.scraper = CustomScraper(
         index="test_index",
         start_urls=[self.url],
         parser_string="//a",
         parser_dict={
             "text": "text()",
             "link": "@href",
         }
     )

Esempio n. 5

Mostra file

File: test_scraper.py Progetto: ContinuumIO/scrapy_scrapers

class TestCustomScraper(unittest.TestCase):

    def setUp(self):
        self.body = open(os.path.join(os.path.dirname(__file__),
            "test_pages/dmoz_index.html"), "r").read()
        self.url = "http://www.example.com/"
        self.request = Request(self.url)
        self.response = TextResponse(self.url, request=self.request, body=self.body, encoding='utf-8')
        self.scraper = CustomScraper(
            index="test_index",
            start_urls=[self.url],
            parser_string="//a",
            parser_dict={
                "text": "text()",
                "link": "@href",
            }
        )

    def test_parse(self):
        parsed = list(self.scraper.parse_item(self.response))
        assert parsed[1] == {'text': [u'about dmoz'], 'link': [u'http://www.dmoz.org/docs/en/about.html']}