def strip_tags(html): from HTMLParser import HTMLParser html = html.strip() html = html.strip("\n") result = [] parse = HTMLParser() parse.handle_data = result.append parse.feed(html) parse.close() return "".join(result)
def strip_tags(html): from HTMLParser import HTMLParser html=html.strip() html=html.strip("\n") result=[] parse=HTMLParser() parse.handle_data=result.append parse.feed(html) parse.close() return "".join(result)
def strip_tags(self, html): ''' 清洗标签 ''' html = html.strip() html = html.strip("\n") result = [] parser = HTMLParser() parser.handle_data = result.append parser.feed(html) parser.close() return ''.join(result).strip()
HTMLParser.reset() 重置实例 . 所有未处理的数据都会丢失。在初始化时自动调用。 HTMLParser.feed(data) 给分析器喂食。在由完整元素构成的情况下工作;不完整数据情况下,会进行缓冲知道更多数据加进来或者 close() 被调用。 HTMLParser.close() 处理所有缓冲数据。这个方法可以被派生类重定义,以便在输入结束后处理额外的事情,重定义的版本也要调用 HTMLParser 基类的 close() 方法。 HTMLParser.getpos() 返回当前行数和列数 HTMLParser.get_starttag_text() 返回最近打开过得开始标记处的文本。通常不会用到, but may be useful in dealing with HTML “as deployed” or for re-generating input with minimal changes (whitespace between attributes can be preserved, etc.).