Python get_content 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: all_crawl2.parsers

메소드/함수: get_content

hotexamples.com에서의 예제들: 6

Python get_content - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 all_crawl2.parsers.get_content에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

 def parse(self, response):
     #print "queued %d" % len(self.crawler.engine.slot.scheduler)
     print "[*] open %s" % response.url
     item = AllCrawl2Item()
     item['inurl'] = response.url
     item['site'] = urlparse(response.url).netloc.lower()
     item['ext'] = splitext(urlparse(response.url).path)[1][1:].lower()
     item.update(parsers.get_content(response, item))
     return item

예제 #2

파일 보기

	def parse(self, response):
		#print "queued %d" % len(self.crawler.engine.slot.scheduler)
		print colorama.Fore.GREEN + "[+] open %s" % (response.url,) + colorama.Fore.RESET, 
		items = AllCrawl2Item()
		items['inurl'] = response.url
		items['site'] = urlparse( response.url ).netloc.lower()
		items['ext'] = splitext( urlparse( response.url ).path )[1][1:].lower()
		for item in parsers.get_content( response.body, items ):
			yield item
		print ''

예제 #3

파일 보기

 def parse(self, response):
     #print "queued %d" % len(self.crawler.engine.slot.scheduler)
     print colorama.Fore.GREEN + "[+] open %s" % (
         response.url, ) + colorama.Fore.RESET,
     item = AllCrawl2Item()
     item['inurl'] = response.url
     item['site'] = 'local'
     item['ext'] = splitext(urlparse(response.url).path)[1][1:].lower()
     item.update(parsers.get_content(response.body, item))
     print ''
     return item

예제 #4

파일 보기

파일: imap.py 프로젝트: s0i37/__all_crawl2

 def parse(self, response):
     print "[*] open %s" % response.url
     item = AllCrawl2Item()
     item['inurl'] = response.url
     item['site'] = urlparse(response.url).netloc.lower()
     item['ext'] = splitext(urlparse(response.url).path)[1][1:].lower()
     if not split(response.url)[1]:  # is file
         #print '[debug] +%s' % response.url
         item["intext"] = ''
         for message in json.loads(response.body):
             item["intext"] += _file + ' '
             yield Request(message)
         yield item
     else:  #	is dir
         #print '[debug] %s' % response.url
         yield parsers.get_content(response, item)

예제 #5

파일 보기

파일: ftp.py 프로젝트: s0i37/__all_crawl2

	def parse(self, response):
		#print "queued %d" % len(self.crawler.engine.slot.scheduler)
		print "[*] open %s" % response.url
		if not split(response.url)[1]:	# is dir
			files = json.loads( response.body )
			for _file in files:
				print '[debug] %s' % ( _file['filename'] + '/' if _file['filetype'] == 'd' else _file['filename'] )
				if _file['filetype'] == 'd':
					yield Request( response.urljoin( _file['filename'] + '/' ), meta = { 'ftp_user': self.ftp_user, 'ftp_password': self.ftp_password } )
				if _file['filetype'] == '-':
					yield Request( response.urljoin( _file['filename'] ), meta = { 'ftp_user': self.ftp_user, 'ftp_password': self.ftp_password } )
		else:
			item = AllCrawl2Item()
			item['inurl'] = response.url
			item['site'] = urlparse( response.url ).netloc.lower()
			item['ext'] = splitext( urlparse( response.url ).path )[1][1:].lower()
			yield parsers.get_content( response, item )

예제 #6

파일 보기

	def parse(self, response):
		#print "queued %d" % len(self.crawler.engine.slot.scheduler)
		print colorama.Fore.GREEN + "[+] open %s" % (response.url,) + colorama.Fore.RESET ,
		items = AllCrawl2Item()
		items['inurl'] = response.url
		items['site'] = urlparse( response.url ).netloc.lower()
		items['ext'] = splitext( urlparse( response.url ).path )[1][1:].lower()
		if not split(response.url)[1]:	# is dir
			#item["intext"] = ''
			for _file in json.loads( response.body ):
				#item["intext"] += _file + ' '
				yield Request( response.url + _file )
			#for _item in item:
			#	yield _item
		else:	# is file
			for item in parsers.get_content( response.body, items ):
				yield item
		print ''