Python HtmlSourceGetter示例

编程语言: Python

命名空间/包名称: com.youmogan.spider.source_getter

类/类型: HtmlSourceGetter

hotexamples.com的示例: 2

Python HtmlSourceGetter - 已找到2个示例。这些是从开源项目中提取的最受好评的com.youmogan.spider.source_getter.HtmlSourceGetter现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

get_uniform_html_source(2)

示例#1

显示文件

文件： url_generater.py 项目： leoinfomail/mygithub

def get_haha365_urls():
    list_url = r'http://www.haha365.com/xd_joke/index.htm'
    base_url = r'http://www.haha365.com'
    getter = HtmlSourceGetter()
    html_data = getter.get_uniform_html_source(list_url, coding[1])
    pattern = r'<img src="/Pic/02.gif"><a Class="" target="_blank"  href="(.*?)" >'
    uris = re.findall(pattern, html_data['data'])
    result_urls = []
    for uri in uris:
        result_urls.append(base_url + uri)
    return (result_urls, coding[1])

示例#2

显示文件

文件： main.py 项目： leoinfomail/mygithub

def get_raw_html():
    """第一步，取得统一编码的源文件到本地目录下"""
    getter = HtmlSourceGetter()
    (urls, coding) = get_url_list()
    # get data
    html_data = {}
    for url in urls:
        html_data[url] = getter.get_uniform_html_source(url, coding)
    # output raw data
    create_dir(out_source_dir_)
    i = 0
    for url, raw_data in html_data.items():
        if not raw_data['data']:
            continue
        raw_file = open(out_source_dir_ + create_file_name(today, site_name, i + 1, '.ymg_html'), 'w')
        raw_file.write(raw_data['request_url'])
        raw_file.write(u'\n\n')
        raw_file.write(raw_data['data'].replace('\r\n', ''))
        raw_file.close()
        i += 1
    return i