Python ScrapeResults示例

编程语言: Python

命名空间/包名称: webgraze.scraper

类/类型: ScrapeResults

hotexamples.com的示例: 11

Python ScrapeResults - 已找到11个示例。这些是从开源项目中提取的最受好评的webgraze.scraper.ScrapeResults现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

ScrapeResults(11)

示例#1

显示文件

    def _scrape_item(self):
        soup = self._get_soup(self.inp)

        yield ScrapeResults(
            self.inp, {
                "title": soup.select("title")[0].get_text(),
                "header": soup.select("h1")[0].get_text(),
                "charset": soup.select("meta[charset]")[0].get("charset")
            })

示例#2

显示文件

    def _scrape_paged(self):
        url = self.inp

        while True:
            data, next_url = self._get_overview(url)
            yield ScrapeResults(url, data)

            if not next_url:
                logging.debug("No more pages, finishing up")
                break
            else:
                url = next_url

示例#3

显示文件

    def _scrape_paged(self):
        url = self.inp
        index = 1

        while True:
            page, next_url = self._parse_page(url)
            yield ScrapeResults(url, page)

            if not next_url:
                logging.debug("No more pages, finishing up")
                break
            else:
                url = next_url
                index = index + 1

示例#4

显示文件

文件： zalando_scraper.py 项目： kroncrv/webgraze

    def _scrape_paged(self):
        url = self.inp
        logging.debug(f"Starting with < {url} >")

        while True:
            data = self._get_soup(url, "#z-nvg-cognac-props")

            yield ScrapeResults(url, data["articles"])

            if "next_page_path" not in data:
                logging.debug("No more pages, finishing up")
                break
            else:
                url = f"https://www.{self.domain}" + data["next_page_path"]
                logging.debug(f"Setting next url: {url}")

示例#5

显示文件

文件： primark_scraper.py 项目： kroncrv/webgraze

    def _scrape_item(self):
        soup = self._get_soup(self.inp)

        data_raw = soup.select(".gallery [data-options]")[0].get("data-options")
        data = html.unescape(data_raw)
        data = json.loads(data)
        product_id = soup.select(".product-panel__id p")[0].get_text()

        yield ScrapeResults(self.inp, {
            "set" : data["set"],
            "name" : data["product"]["name"],
            "description" : data["product"]["description"],
            "price" : to_number(data["product"]["price"]),
            "product_id" : to_number(product_id)
        })

示例#6

显示文件

文件： hm_scraper.py 项目： kroncrv/webgraze

    def _scrape_paged(self):
        offset = 0

        while True:
            url = f"{self.inp}?offset={offset}&page-size={self.PAGE_SIZE}"

            try:
                data = self._get_search(url)
            except ZeroItems:
                logging.debug("No more pages, finishing up")
                break

            yield ScrapeResults(url, data)

            offset += self.PAGE_SIZE
            logging.debug(f"Setting next url: {url}")

示例#7

显示文件

文件： primark_scraper.py 项目： kroncrv/webgraze

    def _scrape_paged(self):
        page = 0

        while True:
            if "?q=" in self.inp:
                url = f"{self.inp}&page={page}"
            else:
                url = f"{self.inp}?q=%3Arelevance&page={page}"

            try:
                data = self._get_search(url)
            except ZeroItems:
                logging.debug("No more pages, finishing up")
                break

            yield ScrapeResults(url, data)

            page += 1
            logging.debug(f"Setting next url: {url}")

示例#8

显示文件

 def _scrape_item(self):
     page = self._parse_page(self.inp)
     yield ScrapeResults(self.inp, page)

示例#9

显示文件

 def _scrape_item(self):
     soup = self._get_soup(self.inp)
     data_el = soup.select("#pdpMain")[0]
     yield ScrapeResults(self.inp, parse_json(data_el))

示例#10

显示文件

文件： zalando_scraper.py 项目： kroncrv/webgraze

    def _scrape_item(self):
        data = self._get_soup(self.inp, "#z-vegas-pdp-props")

        yield ScrapeResults(self.inp, data)

示例#11

显示文件

文件： hm_scraper.py 项目： kroncrv/webgraze

    def _scrape_item(self):
        soup = self._get_soup(self.inp)
        ld = soup.select('script[type="application/ld+json"]')
        data = json.loads(ld[0].get_text())

        yield ScrapeResults(self.inp, data)