def parse(self,response): wohngrund_bezeichung = response.xpath("//div[@class='image-with-text__headline id-headline']/text()").extract() wohngrund_urls = response.xpath("//div[@class='image-with-text__content']/a/@href").extract() for i in range(0, len(wohngrund_urls)): grund_item = GrundstuckItem() # 实例化 base_url = 'https://www.wtg-gronau.de' next_url = base_url + wohngrund_urls[i] grund_item['bundesland'] = self.bundesland grund_item['gemeinde'] = self.gemeinde grund_item['bezeichnung'] = wohngrund_bezeichung[i] grund_item['link'] = next_url yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page)
def parse(self, response): wohngrund_bezeichung = response.xpath( "//li[contains(a/text(), 'Wohnbaugrundstücke')]/ul/li/a/text()" ).extract() wohngrund_urls = response.xpath( "//li[contains(a/text(), 'Wohnbaugrundstücke')]/ul/li/a/@href" ).extract() gewerbgrund_bezeichung = response.xpath( "//li[contains(a/text(), 'Gewerbegrundstücke')]/ul/li/a/text()" ).extract() gewerbgrund_urls = response.xpath( "//li[contains(a/text(), 'Gewerbegrundstücke')]/ul/li/a/@href" ).extract() base_url = 'https://www.duelmen.de/' for i in range(0, len(wohngrund_urls)): grund_item = GrundstuckItem() # 实例化 next_url = base_url + wohngrund_urls[i] grund_item['bundesland'] = 'NW' grund_item['gemeinde'] = 'Duelmen' grund_item['bezeichnung'] = wohngrund_bezeichung[i] grund_item['link'] = next_url yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page) for i in range(0, len(gewerbgrund_urls)): grund_item = GrundstuckItem() # 实例化 next_url = base_url + gewerbgrund_urls[i] grund_item['bundesland'] = 'NW' grund_item['gemeinde'] = 'Duelmen' grund_item['bezeichnung'] = gewerbgrund_bezeichung[i] grund_item['link'] = next_url yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page)
def parse(self, response): wohngrund_bezeichung = response.xpath( "//div[@class='panel-group neos-contentcollection']//h4[@class='panel-title']//span/text()" ).extract_first() wohngrund_urls = self.start_urls # TODO for i in range(0, len(wohngrund_urls)): grund_item = GrundstuckItem() # 实例化 base_url = 'https://www.wtg-gronau.de' next_url = base_url + wohngrund_urls[i] grund_item['bundesland'] = self.bundesland grund_item['gemeinde'] = self.gemeinde grund_item['bezeichnung'] = wohngrund_bezeichung[i] grund_item['link'] = next_url
def parse(self, response): wohngrund_urls = response.xpath( "//div[contains(@class,'csc-header')]//h1/a/@href").extract() wohngrund_bezeichungs = response.xpath( "//div[contains(@class,'csc-header')]//h1/a/text()").extract() for i in range(0, len(wohngrund_urls)): grund_item = GrundstuckItem() next_url = wohngrund_urls[i] grund_item['bundesland'] = self.bundesland grund_item['gemeinde'] = self.gemeinde grund_item['bezeichnung'] = wohngrund_bezeichungs[i] grund_item['link'] = next_url yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page)
def parse(self,response): wohngrund_urls = response.xpath("//div[@id='content']//div[@style='display:inline']//h4/a/@href").extract() wohngrund_bezeichungs = response.xpath("//div[@id='content']//div[@style='display:inline']//h4/a//text()").extract() for i in range(0, len(wohngrund_urls)): # self.log('link: %s' % wohngrund_urls[i]) # self.log('link: %s' % wohngrund_bezeichungs[i]) grund_item = GrundstuckItem() base_url = self.base_url next_url = base_url + wohngrund_urls[i] grund_item['bundesland'] = self.bundesland grund_item['gemeinde'] = self.gemeinde grund_item['bezeichnung'] = wohngrund_bezeichungs[i] grund_item['link'] = next_url # yield grund_item yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page)
def parse(self, response): grund_item_div_list = response.xpath( "//div[@class='search-filter-results']/div[@class='search-result-entry']" ) for grund_item_div in grund_item_div_list: grund_item = GrundstuckItem() next_url = grund_item_div.xpath("./h2/a/@href").extract_first() grund_bezeichung = grund_item_div.xpath( "./h2/a//text()").extract_first() grund_item['link'] = next_url grund_item['bundesland'] = self.bundesland grund_item['gemeinde'] = self.gemeinde grund_item['bezeichnung'] = grund_bezeichung yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page)
def parse(self, response): wohngrund_urls = response.xpath( "//main[@id='standardPage-maincontent']//a/@href").extract() wohngrund_bezeichungs = response.xpath( "//main[@id='standardPage-maincontent']//a//text()").extract() for i in range(0, len(wohngrund_urls)): grund_item = GrundstuckItem() base_url = self.base_url next_url = base_url + wohngrund_urls[i] grund_item['bundesland'] = self.bundesland grund_item['gemeinde'] = self.gemeinde grund_item['bezeichnung'] = wohngrund_bezeichungs[i] grund_item['link'] = next_url yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page)
def parse(self, response): wohngrund_bezeichung = response.xpath( "//section[@class='contentelement']//div[@class='ce-bodytext']//b/text()" ).extract() wohngrund_urls = response.xpath( "//section[@class='contentelement']//div[@class='ce-bodytext']//a/@href" ).extract() for i in range(0, len(wohngrund_urls)): grund_item = GrundstuckItem() # 实例化 next_url = wohngrund_urls[i] grund_item['bundesland'] = self.bundesland grund_item['gemeinde'] = self.gemeinde grund_item['bezeichnung'] = wohngrund_bezeichung[i] grund_item['link'] = next_url yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page)
def parse(self, response): grund_bezeichungs = response.xpath( "//div[@class='content-text']//div/u/strong//text()" ).extract_first() grund_urls = get_base_url(response) grund_item = GrundstuckItem() # 实例化 next_url = grund_urls grund_item['bundesland'] = self.bundesland grund_item['gemeinde'] = self.gemeinde grund_item['link'] = next_url grund_item['bezeichnung'] = grund_bezeichungs content = response.xpath( "//div[@class='staticsite-content']//text()").extract() tags = ' '.join(content) grund_item['content'] = tags yield grund_item
def parse(self, response): wohngrund_bezeichungs = response.xpath( "//div[@class='image-with-text__headline id-headline']/text()" ).extract() wohngrund_urls = response.xpath( "//div[@class='textblock']/h3/a/@href").extract() grund_list = response.xpath("//div[@class='textblock']/h3/a") for i_item in grund_list: grund_item = GrundstuckItem() # 实例化 base_url = 'https://www.heinsberg.de' next_url = base_url + i_item.xpath("@href").extract_first() grund_item['bundesland'] = self.bundesland grund_item['gemeinde'] = self.gemeinde grund_item['bezeichnung'] = i_item.xpath("text()").extract_first() grund_item['link'] = next_url yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.detail_page)
def grund_list_page(self, response): #grund_item = response.meta['item'] grund_list = response.xpath("//table[@class='simple full']/tbody/tr") for i_item in grund_list: grund_item = GrundstuckItem() # 实例化 grund_item['bundesland'] = self.bundesland grund_item['gemeinde'] = self.gemeinde grund_link = i_item.xpath("./td")[0].xpath( "./a/@href").extract_first() # link # self.log('link: %s' % grund_link) if grund_link is None: next_url = self.base_url grund_bezeichung = i_item.xpath("./td")[0].xpath( "./text()").extract_first() else: next_url = self.base_url + grund_link grund_bezeichung = i_item.xpath("./td")[0].xpath( "./a/text()").extract_first() grund_item['link'] = next_url grund_item['bezeichnung'] = grund_bezeichung grund_content = 'NAME: ' + grund_bezeichung + '; ' # content: name, flache, preis, status grund_size = i_item.xpath("./td")[1].xpath( "./text()").extract_first() grund_content = grund_content + 'FLÄCHE: ' + grund_size + '; ' grund_preis = i_item.xpath("./td")[2].xpath( "./text()").extract_first() grund_content = grund_content + 'PREIS: ' + grund_preis + '; ' grund_status = i_item.xpath("./td")[3].xpath( "./text()").extract_first() grund_content = grund_content + 'STATUS: ' + grund_status grund_item['content'] = grund_content if grund_link is None: yield grund_item else: yield scrapy.Request(next_url, meta={'item': grund_item}, callback=self.grund_detail_page)