Python GrundstuckItem Examples, mySpider.items.GrundstuckItem Python Examples

Example #1

0

Show file

File: gronauwestf_spider.py Project: griffonhoshi17/plot-crawling

    def parse(self,response):
        wohngrund_bezeichung = response.xpath("//div[@class='image-with-text__headline id-headline']/text()").extract()
        wohngrund_urls = response.xpath("//div[@class='image-with-text__content']/a/@href").extract()

        for i in range(0, len(wohngrund_urls)):
            grund_item = GrundstuckItem()  # 实例化
            base_url = 'https://www.wtg-gronau.de'
            next_url = base_url + wohngrund_urls[i]
            grund_item['bundesland'] = self.bundesland
            grund_item['gemeinde'] = self.gemeinde
            grund_item['bezeichnung'] = wohngrund_bezeichung[i]
            grund_item['link'] = next_url
            yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page)

Example #2

0

Show file

File: duelmen_spider.py Project: griffonhoshi17/plot-crawling

    def parse(self, response):
        wohngrund_bezeichung = response.xpath(
            "//li[contains(a/text(), 'Wohnbaugrundstücke')]/ul/li/a/text()"
        ).extract()
        wohngrund_urls = response.xpath(
            "//li[contains(a/text(), 'Wohnbaugrundstücke')]/ul/li/a/@href"
        ).extract()

        gewerbgrund_bezeichung = response.xpath(
            "//li[contains(a/text(), 'Gewerbegrundstücke')]/ul/li/a/text()"
        ).extract()
        gewerbgrund_urls = response.xpath(
            "//li[contains(a/text(), 'Gewerbegrundstücke')]/ul/li/a/@href"
        ).extract()

        base_url = 'https://www.duelmen.de/'

        for i in range(0, len(wohngrund_urls)):
            grund_item = GrundstuckItem()  # 实例化
            next_url = base_url + wohngrund_urls[i]
            grund_item['bundesland'] = 'NW'
            grund_item['gemeinde'] = 'Duelmen'
            grund_item['bezeichnung'] = wohngrund_bezeichung[i]
            grund_item['link'] = next_url
            yield scrapy.Request(next_url,
                                 meta={'item': grund_item},
                                 callback=self.detail_page)

        for i in range(0, len(gewerbgrund_urls)):
            grund_item = GrundstuckItem()  # 实例化
            next_url = base_url + gewerbgrund_urls[i]
            grund_item['bundesland'] = 'NW'
            grund_item['gemeinde'] = 'Duelmen'
            grund_item['bezeichnung'] = gewerbgrund_bezeichung[i]
            grund_item['link'] = next_url
            yield scrapy.Request(next_url,
                                 meta={'item': grund_item},
                                 callback=self.detail_page)

Example #3

0

Show file

 def parse(self, response):
     wohngrund_bezeichung = response.xpath(
         "//div[@class='panel-group neos-contentcollection']//h4[@class='panel-title']//span/text()"
     ).extract_first()
     wohngrund_urls = self.start_urls
     # TODO
     for i in range(0, len(wohngrund_urls)):
         grund_item = GrundstuckItem()  # 实例化
         base_url = 'https://www.wtg-gronau.de'
         next_url = base_url + wohngrund_urls[i]
         grund_item['bundesland'] = self.bundesland
         grund_item['gemeinde'] = self.gemeinde
         grund_item['bezeichnung'] = wohngrund_bezeichung[i]
         grund_item['link'] = next_url

Example #4

0

Show file

    def parse(self, response):
        wohngrund_urls = response.xpath(
            "//div[contains(@class,'csc-header')]//h1/a/@href").extract()
        wohngrund_bezeichungs = response.xpath(
            "//div[contains(@class,'csc-header')]//h1/a/text()").extract()

        for i in range(0, len(wohngrund_urls)):
            grund_item = GrundstuckItem()
            next_url = wohngrund_urls[i]
            grund_item['bundesland'] = self.bundesland
            grund_item['gemeinde'] = self.gemeinde
            grund_item['bezeichnung'] = wohngrund_bezeichungs[i]
            grund_item['link'] = next_url
            yield scrapy.Request(next_url,
                                 meta={'item': grund_item},
                                 callback=self.detail_page)

Example #5

0

Show file

File: badberleburg_spider.py Project: griffonhoshi17/plot-crawling

    def parse(self,response):
        wohngrund_urls = response.xpath("//div[@id='content']//div[@style='display:inline']//h4/a/@href").extract()
        wohngrund_bezeichungs = response.xpath("//div[@id='content']//div[@style='display:inline']//h4/a//text()").extract()

        for i in range(0, len(wohngrund_urls)):
            # self.log('link: %s' % wohngrund_urls[i])
            # self.log('link: %s' % wohngrund_bezeichungs[i])
            grund_item = GrundstuckItem()
            base_url = self.base_url
            next_url = base_url + wohngrund_urls[i]
            grund_item['bundesland'] = self.bundesland
            grund_item['gemeinde'] = self.gemeinde
            grund_item['bezeichnung'] = wohngrund_bezeichungs[i]
            grund_item['link'] = next_url
            # yield grund_item
            yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page)

Example #6

0

Show file

File: blomberg_spider.py Project: griffonhoshi17/plot-crawling

    def parse(self, response):
        grund_item_div_list = response.xpath(
            "//div[@class='search-filter-results']/div[@class='search-result-entry']"
        )

        for grund_item_div in grund_item_div_list:
            grund_item = GrundstuckItem()
            next_url = grund_item_div.xpath("./h2/a/@href").extract_first()
            grund_bezeichung = grund_item_div.xpath(
                "./h2/a//text()").extract_first()
            grund_item['link'] = next_url
            grund_item['bundesland'] = self.bundesland
            grund_item['gemeinde'] = self.gemeinde
            grund_item['bezeichnung'] = grund_bezeichung
            yield scrapy.Request(next_url,
                                 meta={'item': grund_item},
                                 callback=self.detail_page)

Example #7

0

Show file

File: portawestfalica_spider.py Project: griffonhoshi17/plot-crawling

    def parse(self, response):
        wohngrund_urls = response.xpath(
            "//main[@id='standardPage-maincontent']//a/@href").extract()
        wohngrund_bezeichungs = response.xpath(
            "//main[@id='standardPage-maincontent']//a//text()").extract()

        for i in range(0, len(wohngrund_urls)):
            grund_item = GrundstuckItem()
            base_url = self.base_url
            next_url = base_url + wohngrund_urls[i]
            grund_item['bundesland'] = self.bundesland
            grund_item['gemeinde'] = self.gemeinde
            grund_item['bezeichnung'] = wohngrund_bezeichungs[i]
            grund_item['link'] = next_url
            yield scrapy.Request(next_url,
                                 meta={'item': grund_item},
                                 callback=self.detail_page)

Example #8

0

Show file

    def parse(self, response):
        wohngrund_bezeichung = response.xpath(
            "//section[@class='contentelement']//div[@class='ce-bodytext']//b/text()"
        ).extract()
        wohngrund_urls = response.xpath(
            "//section[@class='contentelement']//div[@class='ce-bodytext']//a/@href"
        ).extract()

        for i in range(0, len(wohngrund_urls)):
            grund_item = GrundstuckItem()  # 实例化
            next_url = wohngrund_urls[i]
            grund_item['bundesland'] = self.bundesland
            grund_item['gemeinde'] = self.gemeinde
            grund_item['bezeichnung'] = wohngrund_bezeichung[i]
            grund_item['link'] = next_url
            yield scrapy.Request(next_url,
                                 meta={'item': grund_item},
                                 callback=self.detail_page)

Example #9

0

Show file

File: billerbeck_spider.py Project: griffonhoshi17/plot-crawling

    def parse(self, response):
        grund_bezeichungs = response.xpath(
            "//div[@class='content-text']//div/u/strong//text()"
        ).extract_first()
        grund_urls = get_base_url(response)

        grund_item = GrundstuckItem()  # 实例化
        next_url = grund_urls
        grund_item['bundesland'] = self.bundesland
        grund_item['gemeinde'] = self.gemeinde
        grund_item['link'] = next_url
        grund_item['bezeichnung'] = grund_bezeichungs
        content = response.xpath(
            "//div[@class='staticsite-content']//text()").extract()
        tags = ' '.join(content)
        grund_item['content'] = tags

        yield grund_item

Example #10

0

Show file

    def parse(self, response):
        wohngrund_bezeichungs = response.xpath(
            "//div[@class='image-with-text__headline id-headline']/text()"
        ).extract()
        wohngrund_urls = response.xpath(
            "//div[@class='textblock']/h3/a/@href").extract()
        grund_list = response.xpath("//div[@class='textblock']/h3/a")

        for i_item in grund_list:
            grund_item = GrundstuckItem()  # 实例化
            base_url = 'https://www.heinsberg.de'
            next_url = base_url + i_item.xpath("@href").extract_first()
            grund_item['bundesland'] = self.bundesland
            grund_item['gemeinde'] = self.gemeinde
            grund_item['bezeichnung'] = i_item.xpath("text()").extract_first()
            grund_item['link'] = next_url
            yield scrapy.Request(next_url,
                                 meta={'item': grund_item},
                                 callback=self.detail_page)

Example #11

0

Show file

    def grund_list_page(self, response):
        #grund_item = response.meta['item']
        grund_list = response.xpath("//table[@class='simple full']/tbody/tr")
        for i_item in grund_list:
            grund_item = GrundstuckItem()  # 实例化
            grund_item['bundesland'] = self.bundesland
            grund_item['gemeinde'] = self.gemeinde

            grund_link = i_item.xpath("./td")[0].xpath(
                "./a/@href").extract_first()  # link
            # self.log('link: %s' % grund_link)
            if grund_link is None:
                next_url = self.base_url
                grund_bezeichung = i_item.xpath("./td")[0].xpath(
                    "./text()").extract_first()
            else:
                next_url = self.base_url + grund_link
                grund_bezeichung = i_item.xpath("./td")[0].xpath(
                    "./a/text()").extract_first()
            grund_item['link'] = next_url
            grund_item['bezeichnung'] = grund_bezeichung

            grund_content = 'NAME: ' + grund_bezeichung + '; '  # content: name, flache, preis, status
            grund_size = i_item.xpath("./td")[1].xpath(
                "./text()").extract_first()
            grund_content = grund_content + 'FLÄCHE: ' + grund_size + '; '
            grund_preis = i_item.xpath("./td")[2].xpath(
                "./text()").extract_first()
            grund_content = grund_content + 'PREIS: ' + grund_preis + '; '
            grund_status = i_item.xpath("./td")[3].xpath(
                "./text()").extract_first()
            grund_content = grund_content + 'STATUS: ' + grund_status
            grund_item['content'] = grund_content

            if grund_link is None:
                yield grund_item
            else:
                yield scrapy.Request(next_url,
                                     meta={'item': grund_item},
                                     callback=self.grund_detail_page)