Python get_summary_from_html_by_sub示例

编程语言: Python

命名空间/包名称: common.utils

方法/功能: get_summary_from_html_by_sub

hotexamples.com的示例: 7

Python get_summary_from_html_by_sub - 已找到7个示例。这些是从开源项目中提取的最受好评的common.utils.get_summary_from_html_by_sub现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

 def get_summary(self, max_num=100):
     """
     @attention: 通过内容获取摘要
     """
     from common import utils
     return utils.get_summary_from_html_by_sub(self.content,
                                               max_num=max_num)

示例#2

显示文件

文件： auto_publish_article.py 项目： cash2one/zx

def auto_publish_article(key):
    from common.utils import get_summary_from_html_by_sub

    # text = open((u"./txt/%s.txt" % u"【原创】《大雄股市历险记4》股票为什么会上涨").encode("utf8"), "r").read()
    # text = get_summary_from_html_by_sub(text, max_num=990000)
    # print text
    # return
    count = 0
    hrefs = u""

    for index in range(20):
        url = 'http://weixin.sogou.com/weixin?query=' + key + '&type=2&ie=utf8&page=' + str(
            index) + '&p=40040100&dp=1&w=01019900&dr=1'
        rep = requests.get(url)
        text = rep.text
        jq = pq(text)
        lst_articles = jq('.wx-rb3 .txt-box a')
        for article in lst_articles:
            print count
            href = article.get("href")
            name = article.text_content()
            text = requests.get(href).text
            text = get_summary_from_html_by_sub(text,
                                                max_num=990000,
                                                filter_nbsp=True)

            re_blank = re.compile('[\s]+', re.I)
            key_text = re_blank.sub('', text)
            if not 300 < len(key_text) < 3000:
                continue
            if is_in_baidu(key_text[50:60]):
                continue
            if is_in_baidu(key_text[150:160]):
                continue
            if is_in_baidu(key_text[250:260]):
                continue
            count += 1
            hrefs += u"%s\n" % href
            open((u"./txt/%s.txt" % name).encode("utf8"),
                 "w").write(text.encode("utf8"))
            # break
        open((u"./txt/hrefs.txt").encode("utf8"),
             "w").write(hrefs.encode("utf8"))

    print u"total articles:%s" % count

示例#3

显示文件

文件： auto_publish_article.py 项目： lantianlz/zx

def auto_publish_article(key):
    from common.utils import get_summary_from_html_by_sub

    # text = open((u"./txt/%s.txt" % u"【原创】《大雄股市历险记4》股票为什么会上涨").encode("utf8"), "r").read()
    # text = get_summary_from_html_by_sub(text, max_num=990000)
    # print text
    # return
    count = 0
    hrefs = u""

    for index in range(20):
        url = 'http://weixin.sogou.com/weixin?query=' + key + '&type=2&ie=utf8&page=' + str(index) + '&p=40040100&dp=1&w=01019900&dr=1'
        rep = requests.get(url)
        text = rep.text
        jq = pq(text)
        lst_articles = jq('.wx-rb3 .txt-box a')
        for article in lst_articles:
            print count
            href = article.get("href")
            name = article.text_content()
            text = requests.get(href).text
            text = get_summary_from_html_by_sub(text, max_num=990000, filter_nbsp=True)

            re_blank = re.compile('[\s]+', re.I)
            key_text = re_blank.sub('', text)
            if not 300 < len(key_text) < 3000:
                continue
            if is_in_baidu(key_text[50:60]):
                continue
            if is_in_baidu(key_text[150:160]):
                continue
            if is_in_baidu(key_text[250:260]):
                continue
            count += 1
            hrefs += u"%s\n" % href
            open((u"./txt/%s.txt" % name).encode("utf8"), "w").write(text.encode("utf8"))
            # break
        open((u"./txt/hrefs.txt").encode("utf8"), "w").write(hrefs.encode("utf8"))

    print u"total articles:%s" % count

示例#4

显示文件

文件： models.py 项目： lantianlz/zx

 def get_summary(self):
     """
     @attention: 通过内容获取摘要
     """
     from common import utils
     return utils.get_summary_from_html_by_sub(self.content)

示例#5

显示文件

文件： models.py 项目： lantianlz/zx

 def get_summary(self):
     """
     @note: 通过内容获取摘要
     """
     from common import utils
     return utils.get_summary_from_html_by_sub(self.des)

示例#6

显示文件

 def get_summary(self):
     """
     @note: 通过内容获取摘要
     """
     from common import utils
     return utils.get_summary_from_html_by_sub(self.des)

示例#7

显示文件

 def get_summary(self):
     """
     @attention: 通过内容获取摘要
     """
     from common import utils
     return utils.get_summary_from_html_by_sub(self.summary)