Python CrawlAuditItem 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: items

클래스/타입: CrawlAuditItem

hotexamples.com에서의 예제들: 2

Python CrawlAuditItem - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 items.CrawlAuditItem에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

CrawlAuditItem(1)

get(1)

save(1)

예제 #1

파일 보기

 def crawled(self, url):
     """ Dont recrawl same urls """
     try:
         item = CrawlAuditItem.get(url__exact=url)
         if item:
             return True
     except:
         pass
     return False

예제 #2

파일 보기

 def parse(self, response):
     """ Generator func - Check its html - ie has encoding """
     item = CrawlAuditItem()
     item['url'] = response.url
     item['metatype'] = response.meta
     if hasattr(response, 'encoding'):
         hxs = HtmlXPathSelector(response)
         links = hxs.select('//a/@href').extract()
         links = set(links)
         if response.url in links:
             links.remove(response.url)
         item['links'] = len(links)
         #flash, javascript and framesets can be external cookie sources
         embed = hxs.select('//embed/@src').extract()
         embed.extend(hxs.select('//object/@data').extract())
         embed.extend(hxs.select('//script/@src').extract())
         embed.extend(hxs.select('//frameset/@src').extract())
         embed = set(embed)
         for url in embed:
             # Store embedded scripts / flash since also source of cookies
             # can we save flash cookies? - maybe needs separate firefox grab of url
             if url.startswith('/'):
                 url = 'http://www.bris.ac.uk%s' % url
             elif not url.startswith('http'):
                 rurl = response.url
                 if not rurl.endswith('/'):
                     urlbits = response.url.split('/')
                     rurl = '/'.join(urlbits[-1])
                 url = '%s%s' % (rurl, url)
             if not self.crawled(url):
                 newresponse = Request(url)
                 newitem = CrawlAuditItem()                
                 newitem['url'] = response.url
                 newitem['metatype'] = response.meta
                 newitem['links'] = 0
                 newitem.save()
         for url in links:
             if not self.crawled(url):
                 url = self.domain_check(url)
                 if url:
                     yield Request(url, callback=self.parse) 
         # Just save crawled pages not files/images
         try:
             item.save()
         except:
             self.pipe.process_item(item)