Ejemplos de CustomScraper en Python

Lenguaje de programación: Python

Namespace/Package Name: spiders.scrapers

Clase / Tipo: CustomScraper

Ejemplos en hotexamples.com: 5

Python CustomScraper - 5 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de spiders.scrapers.CustomScraper extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

CustomScraper(2)

parse_item(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: test_scraper.py Proyecto: hoardboard/scraper

class TestCustomScraper(unittest.TestCase):
    def setUp(self):
        self.body = open(
            os.path.join(os.path.dirname(__file__),
                         "test_pages/dmoz_index.html"), "r").read()
        self.url = "http://www.example.com/"
        self.request = Request(self.url)
        self.response = TextResponse(self.url,
                                     request=self.request,
                                     body=self.body,
                                     encoding='utf-8')
        self.scraper = CustomScraper(index="test_index",
                                     start_urls=[self.url],
                                     parser_string="//a",
                                     parser_dict={
                                         "text": "text()",
                                         "link": "@href",
                                     })

    def test_parse(self):
        parsed = list(self.scraper.parse_item(self.response))
        assert parsed[1] == {
            'text': [u'about dmoz'],
            'link': [u'http://www.dmoz.org/docs/en/about.html']
        }

Ejemplo n.º 2

Mostrar archivo

Archivo: test_scraper.py Proyecto: hoardboard/scraper

 def setUp(self):
     self.body = open(
         os.path.join(os.path.dirname(__file__),
                      "test_pages/dmoz_index.html"), "r").read()
     self.url = "http://www.example.com/"
     self.request = Request(self.url)
     self.response = TextResponse(self.url,
                                  request=self.request,
                                  body=self.body,
                                  encoding='utf-8')
     self.scraper = CustomScraper(index="test_index",
                                  start_urls=[self.url],
                                  parser_string="//a",
                                  parser_dict={
                                      "text": "text()",
                                      "link": "@href",
                                  })

Ejemplo n.º 3

Mostrar archivo

Archivo: test_pipeline.py Proyecto: hoardboard/scraper

 def setUp(self):
     self.es = Elasticsearch()
     self.pipeline = ElasticsearchPipeline()
     self.spider = CustomScraper(
         index="test_index",
         start_urls=["http://www.dmoz.org"],
         parser_string="//a",
         parser_dict={
             "text": "text()",
             "link": "@href",
         }
     )
     self.pipeline.open_spider(self.spider)

Ejemplo n.º 4

Mostrar archivo

Archivo: test_scraper.py Proyecto: ContinuumIO/scrapy_scrapers

 def setUp(self):
     self.body = open(os.path.join(os.path.dirname(__file__),
         "test_pages/dmoz_index.html"), "r").read()
     self.url = "http://www.example.com/"
     self.request = Request(self.url)
     self.response = TextResponse(self.url, request=self.request, body=self.body, encoding='utf-8')
     self.scraper = CustomScraper(
         index="test_index",
         start_urls=[self.url],
         parser_string="//a",
         parser_dict={
             "text": "text()",
             "link": "@href",
         }
     )

Ejemplo n.º 5

Mostrar archivo

Archivo: test_scraper.py Proyecto: ContinuumIO/scrapy_scrapers

class TestCustomScraper(unittest.TestCase):

    def setUp(self):
        self.body = open(os.path.join(os.path.dirname(__file__),
            "test_pages/dmoz_index.html"), "r").read()
        self.url = "http://www.example.com/"
        self.request = Request(self.url)
        self.response = TextResponse(self.url, request=self.request, body=self.body, encoding='utf-8')
        self.scraper = CustomScraper(
            index="test_index",
            start_urls=[self.url],
            parser_string="//a",
            parser_dict={
                "text": "text()",
                "link": "@href",
            }
        )

    def test_parse(self):
        parsed = list(self.scraper.parse_item(self.response))
        assert parsed[1] == {'text': [u'about dmoz'], 'link': [u'http://www.dmoz.org/docs/en/about.html']}