def parse_topics(self, response): item = Headline() item['title'] = response.css('head title::text').extract_first() item['body'] = " ".join(response.css('.o-article_block p')\ .xpath('string()')\ .extract()) yield item
def parse_topics(self, response): """ Scrape title and body-text """ item = Headline() item['title'] = response.css('.newsTitle ::text').extract_first() item['body'] = response.css('.hbody').xpath('string()').extract_first() yield item
def parse_topics(self, response): item = Headline() item['title'] = response.css('.newsTitle ::text').extract_first() item['body'] = response.css('.hbody').xpath('string()').extract_first() yield item # scrapy runspider xxx.py
def parse_topics(self, response): """ トピックスのページからタイトルと本文を抜き出す。 """ item = Headline() item['title'] = response.css('.newsTitle ::text').extract_first() item['body'] = response.css('.hbody').xpath('string()').extract_first() yield item
def parse_page(self, response): """ トピックスのページからタイトルと本文を抜き出す。 """ item = Headline() item['url'] = response.url item['html'] = response.text yield item
def parse_topics(self, response): """ トピックスのページからタイトルと本文を抜き出す """ item = Headline() # Headlineオブジェクトを作成 item['title'] = response.css( '.newsTitle ::text').extract_first() # タイトル item['body'] = response.css('.hbody').xpath( 'string()').extract_first() # 本文 yield item # Itemをyieldして、データを抽出する
def parse_topics(self, response): """ トピックスのページからタイトルと本文を抜き出す。 """ item = Headline() # Headlineオブジェクトの作成。 item['title'] = response.css( '.newsTitle ::text').extract_first() # タイトル item['body'] = response.css('.hbody').xpath( 'string()').extract_first() # 本文 #item['body'] = ''.join(response.css('.hbody ::text').extract()) # 本文 CSSセレクターのみを使う場合 yield item # Itemをyieldして、データを抽出する。
def parse_topics(self, response): """ トピックスのページからタイトルと本文を抜き出す。 """ item = Headline() #item['title'] = response.css('.tpcNews_title::text').get() #item['body'] = response.css('.tpcNews_summary').xpath('string()').get() item['title'] = response.css( '.pickupMain_articleTitle::text').get() # タイトル item['body'] = response.css('.pickupMain_articleSummary').xpath( 'string()').get() # 本文 yield item
def parse_topics(self, response): item = Headline() item['title'] = response.css('.pickupMain_articleTitle ::text').extract_first() item['body'] = response.css('.pickupMain_articleSummary ::text').extract_first() yield item