Python HaiguanDataItem 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: HAIGUAN_DATA.items

클래스/타입: HaiguanDataItem

hotexamples.com에서의 예제들: 2

Python HaiguanDataItem - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 HAIGUAN_DATA.items.HaiguanDataItem에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

HaiguanDataItem(2)

자주 사용되는 메소드들

HaiguanDataItem (2)

예제 #1

파일 보기

 def parse_item(self, response):
     if response.status == 209:
         urls = 'http://39.96.199.128:8888/getCookie?url=' + str(response.url)
         yield scrapy.Request(urls, callback=self.parseCookie, meta={'url': str(response.url), 'type': 'parse_item'},
                              dont_filter=True, priority=10)
     else:
         try:
             item = HaiguanDataItem()
             item['title'] = response.css('title::text').extract_first()
             item['time'] = get_times(
                 response.css('.easysite-news-describe::text').extract_first())
             item['content'] = response.css('#easysiteText').extract_first()
             appendix, appendix_name = get_attachments(response)
             item['appendix'] = appendix
             item['appendix_name'] = appendix_name
             item['name'] = '中华人民共和国沈阳海关'
             item['website'] = '中华人民共和国沈阳海关-统计数据'
             item['link'] = response.url
             item['txt'] = ''.join(
                 response.css('#easysiteText *::text').extract())
             item['module_name'] = '中华人民共和国沈阳海关-统计数据'
             item['spider_name'] = 'SYHG_TJSJ'
             print(
                     "===========================>crawled one item" +
                     response.request.url)
         except Exception as e:
             logging.error(
                 self.name +
                 " in parse_item: url=" +
                 response.request.url +
                 ", exception=" +
                 e.__str__())
             logging.exception(e)
         yield item

예제 #2

파일 보기

파일: SHHG_TJSJ.py 프로젝트: Yemeimei/xty_data_-collect

 def parse_list(self, response):
     if response.status == 209:
         urls = 'http://39.96.199.128:8888/getCookie?url=' + str(
             response.url)
         yield scrapy.Request(urls,
                              callback=self.parseCookie,
                              meta={
                                  'url': str(response.url),
                                  'type': 'parse_list'
                              },
                              dont_filter=True,
                              priority=10)
     else:
         for href in response.css('.mtfsljb a::attr(href)').extract():
             url = response.urljoin(href).strip()
             if (url.endswith('.html') or url.endswith('.htm')
                 ) and url.startswith('http://') and (url != response.url):
                 yield scrapy.Request(url,
                                      callback=self.parse_item,
                                      dont_filter=True)
             else:
                 try:
                     item = HaiguanDataItem()
                     item['title'] = response.css(
                         'title::text').extract_first()
                     item['time'] = '2020-09-22'
                     item['content'] = url
                     item['appendix'] = url
                     item['appendix_name'] = ''
                     item['name'] = '中华人民共和国上海海关'
                     item['website'] = '中华人民共和国上海海关-统计数据'
                     item['link'] = url
                     item['txt'] = url
                     item['module_name'] = '中华人民共和国上海海关-统计数据'
                     item['spider_name'] = 'SHHG_TJSJ'
                     print("===========================>crawled one item" +
                           str(item))
                 except Exception as e:
                     logging.error(self.name + " in parse_item: url=" +
                                   response.request.url + ", exception=" +
                                   e.__str__())
                     logging.exception(e)
                 yield item