Python decodeHtml示例

编程语言: Python

命名空间/包名称: crawler.utils.charset

方法/功能: decodeHtml

hotexamples.com的示例: 3

Python decodeHtml - 已找到3个示例。这些是从开源项目中提取的最受好评的crawler.utils.charset.decodeHtml现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： ConfigSpider.py 项目： huangpanxx/POAS

 def extract_and_fill(self, item, data):
     html = decodeHtml(data) #转换到utf8编码
     info = parseHtml(html) #解析
     
     item['publish_datetime'] = info['datetime']
     item['title'] = info['title']
     item['content'] = info['text']

示例#2

显示文件

文件： SinaSpider.py 项目： huangpanxx/POAS

    def parse_detail(self, response):

        url = response.url
        item = CrawlItem(
            url=url, site=self.site_name, crawl_datetime=datetime.datetime.now(), uuid=hashlib.md5(url).hexdigest()
        )

        # 数据
        data = response.body

        # 转换到utf8编码
        html = decodeHtml(data)

        # 解析
        info = parseHtml(html)
        item["publish_datetime"] = info["datetime"]
        item["title"] = info["title"]
        item["content"] = info["text"]

        return item

示例#3

显示文件

文件： news_extractor.py 项目： huangpanxx/POAS

 def getHtml(url):
     opener = urllib2.urlopen(url)
     data = opener.read()
     html = decodeHtml(data)
     return html