Python SpecialSites 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: SpecialSites

클래스/타입: SpecialSites

hotexamples.com에서의 예제들: 2

Python SpecialSites - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 SpecialSites.SpecialSites에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

getNameAndLanguageFromResource(2)

newyorktimes(1)

straitstimes(1)

예제 #1

파일 보기

파일: rsscrawler.py 프로젝트: WING-NUS/RSScrawler-1

	def storeNewLinkInMERGEandHTML(self, file_id, rssResource, page, title, firstPage_link, link, page_num, date):
		try:
			file_name = hashlib.md5(title.encode('utf-8')).hexdigest()
		except:
			pass
		# print "file name = "+file_name
		try:
			myFile = open(self.sub_ppath  + str(file_id)+'.'+file_name+'.html', 'w')
			myFile.write(page)
			language = 'English'
			sourcename = self.RSSName
			if self.RSSName in self.config['multisource']:
				sourcename,language = SpecialSites.getNameAndLanguageFromResource(rssResource,sourcename,language)

			data =  { 'source':rssResource, 'language': language, 'sourcename':sourcename, 'firstPage_link':firstPage_link, 'page': page_num, 'title': title, 'timestamp-sec': date}
			content = json.dumps(data)
			new_line_webpage = str(file_id)+'.'+file_name+'.html'+'\t' + 'html'+'\t'+ str(file_id)+'\t' + link + '\t' + link + '\t' + content + '\t' + '0' + '\t' + '-1'
			myFile2 = open(self.sub_ppath  + self.config['storagefile'], 'a')
			myFile2.write(new_line_webpage)
			myFile2.write('\n')

		except UnicodeEncodeError:
			logging.warning("there is a UnicodeEncodeError")
			return 'unicode error'
		finally:
			myFile.close()
			myFile2.close()
		return None

예제 #2

파일 보기

파일: rsscrawler.py 프로젝트: WING-NUS/RSScrawler-1

	def fetchNews(self):
		for rssResource in self.sources:
			# print "rssResource = "+rssResource
			new_links = []
			fileName = self.replaceAll4FileName(rssResource)

			self.createAllFetchedLinks(fileName)

			d = self.fetchXML(rssResource)
			if d == "wrong url":
				continue

			# fetch all items from a RSS source 
			for dd in d.entries:
				ex = NewsBlogExtractor()
				page_num = 1
				page, link, file_id= self.fetchWebpage(dd.link)
				firstPage_link = link
				while link != None:
					time.sleep(0.1)					
					# special processing for some RSS sources
					if self.RSSName in self.config['specialsites']:
						# page, link = globals()["SpecialSites." + self.RSSName](page, link)
						if self.RSSName == 'newyorktimes':
							page, link = SpecialSites.newyorktimes(page, link)
						elif self.RSSName == 'straitstimes':
							page, link = SpecialSites.straitstimes(page, link)

					if (page == None) or (len(page) == 0):
						break # next item

					if self.determineDuplication(fileName,link) == 'False':
						#  insert the new  link into database
						self.updateNewLinks(fileName, link)

						# store a new link in a special file , such as, MERGE.TXT, and store its whole webpage in a HTML file
						self.storeNewLinkInMERGEandHTML(file_id, rssResource, page, dd.title, firstPage_link, link, page_num, str(time.mktime(dd.published_parsed)+self.config['timezonedifference']*3600))

						# special processing for special sites
						language = 'English'
						sourcename = self.RSSName
						if self.RSSName in self.config['multisource']:
							sourcename,language = SpecialSites.getNameAndLanguageFromResource(rssResource,sourcename,language)

						# store all images in the webpage
						if rssinstance.config['imagestorage'] == "True":
							o = urlparse(link)
							images = ex.findAllImages(page, o.netloc, sourcename)
							# print images
							self.fetchAllImages(images, link)

						# calculate word frequency in title
						if self.config['wordsFrequency'] == "True":
							self.calWordsFrequency(dd.title, str(dd.published_parsed[2]))

						new_links.append(link)

						# process multiple pages
						link = ex.findNextPage(page, sourcename)
						if link != None:
							page_num +=1
							page, link,file_id = self.fetchWebpage(link)
					else:
						break

			if (len(new_links) !=0) :
				# update words frequency record file
				if self.config['wordsFrequency'] == "True":
					self.updateWordsFrequency()

			time.sleep(1)
		return None