Beispiel #1
0
 def ultimate_rip(data):
     """Вспомогательная функция вычищения тэгов. Оставляет ничего"""
     ripper = HTMLParser()
     from types import MethodType
     ripper.handle_data = MethodType(lambda self, d: self.fed.append(d),
                                     ripper, HTMLParser)
     ripper.get_data = MethodType(lambda self: u''.join(self.fed), ripper,
                                  HTMLParser)
     ripper.fed = []
     ripper.feed(data)
     return ripper.get_data()
Beispiel #2
0
    def _content_to_list(self, content):

        try:
            parser = HTMLParser()
            parser.fed = []
            parser.handle_data = lambda d: parser.fed.append(d)

            parser.feed(content)
            return (''.join(parser.fed).encode('ascii', 'ignore').translate(
                string.maketrans("", ""), string.punctuation).lower().split())

        except:
            return list()
Beispiel #3
0
	def _content_to_list(self, content):
	
		try:
			parser = HTMLParser()
			parser.fed = []
			parser.handle_data = lambda d: parser.fed.append(d)
			
			parser.feed(content)
			return (''.join(parser.fed).encode('ascii', 'ignore')
					.translate(string.maketrans("",""), string.punctuation).lower().split())
		
		except:
			return list()