Python Scraper.Scraperの例

プログラミング言語: Python

名前空間/パッケージ名: hackernews_scraper.hnscraper

クラス/型: Scraper

メソッド/関数: Scraper

hotexamples.comのコード掲載数: 7

Python Scraper.Scraper - 7件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのhackernews_scraper.hnscraper.Scraper.Scraperの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Scraper(7)

_translateFields(6)

next(2)

scrape(1)

コード例 #1

ファイルを表示

    def test_scrape_correct_request(self):
        item = ItemFactory(created_at_i=42)

        httpretty.register_uri(httpretty.GET,
                               AlgoliaEndpoint.URL,
                               responses=self._createPages(pages=2,
                                                           hits=[item]),
                               content_type="application/json")

        gen = Scraper().scrape(tag="test", since=42, until=43)

        gen.next()
        self.assertDictEqual(
            httpretty.last_request().querystring, {
                "numericFilters": ["created_at_i>42,created_at_i<43"],
                "tags": ["test"],
                "page": ["0"]
            })

        gen.next()
        self.assertDictEqual(
            httpretty.last_request().querystring, {
                "numericFilters": ["created_at_i>42,created_at_i<43"],
                "tags": ["test"],
                "page": ["1"]
            })

コード例 #2

ファイルを表示

    def test_scrape(self):
        hits = [ItemFactory(created_at_i=42) for _ in range(2)]

        httpretty.register_uri(httpretty.GET,
                               AlgoliaEndpoint.URL,
                               responses=self._createPages(hits=hits),
                               content_type="application/json")

        resp = list(Scraper().scrape(tag="test", since=42))
        self.assertListEqual(hits, resp)

コード例 #3

ファイルを表示

    def test_scrape_all_fields_are_returned(self):
        item = ItemFactory(created_at_i=42)

        httpretty.register_uri(httpretty.GET,
                               AlgoliaEndpoint.URL,
                               responses=self._createPages(hits=[item]),
                               content_type="application/json")

        resp = list(Scraper().scrape(tag="test", since=42))
        self.assertItemsEqual(resp[0].keys(),
                              ["objectID", "created_at_i", "title"])

コード例 #4

ファイルを表示

    def test_scrape_no_items(self):
        lastPage = ResponseFactory()
        lastPage["nbHits"] = 0
        lastPage["hits"] = []

        httpretty.register_uri(httpretty.GET,
                               AlgoliaEndpoint.URL,
                               body=json.dumps(lastPage),
                               content_type="application/json")

        resp = list(Scraper().scrape(tag="test", since=42))
        self.assertListEqual(resp, [])

コード例 #5

ファイルを表示

    def test_scrape_translate_fields(self):
        item = ItemFactory(created_at_i=42)

        httpretty.register_uri(httpretty.GET,
                               AlgoliaEndpoint.URL,
                               responses=self._createPages(hits=[item]),
                               content_type="application/json")

        fields = {"test": "created_at_i"}

        resp = list(Scraper().scrape(tag="test", since=42, fields=fields))
        self.assertItemsEqual(resp[0].keys(), ["test"])

コード例 #6

ファイルを表示

    def test_scrape_generator(self):
        hits = [ItemFactory(created_at_i=42) for _ in range(2)]

        httpretty.register_uri(httpretty.GET,
                               AlgoliaEndpoint.URL,
                               responses=self._createPages(pages=2, hits=hits),
                               content_type="application/json")

        gen = Scraper().scrape(tag="test", since=42)
        resp = gen.next()
        self.assertEqual(resp, hits[0])
        resp = gen.next()
        self.assertEqual(resp, hits[1])

コード例 #7

ファイルを表示

    def test_scrape_page_limit(self):
        hits = [ItemFactory(created_at_i=42) for _ in range(2)]
        pages = [
            httpretty.Response(body=json.dumps(ResponseFactory(hits=hits)))
        ]

        lastPage = ResponseFactory()
        # Trick the scraper in thinking it reached the last page but there are more
        # items available.
        lastPage["nbHits"] = 3
        lastPage["hits"] = []  # this needs to be empty

        pages.append(httpretty.Response(body=json.dumps(lastPage)))

        httpretty.register_uri(httpretty.GET,
                               AlgoliaEndpoint.URL,
                               responses=pages,
                               content_type="application/json")

        with self.assertRaises(TooManyItemsException):
            list(Scraper().scrape(tag="test", since=42))