Python Fetch.get_all_link示例

编程语言: Python

命名空间/包名称: fetcher

类/类型: Fetch

方法/功能: get_all_link

hotexamples.com的示例: 3

Python Fetch.get_all_link - 已找到3个示例。这些是从开源项目中提取的最受好评的fetcher.Fetch.get_all_link现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Fetch(4)

create_jobs(2)

get_all_link(2)

get_data(2)

convert_data_to_dict(1)

format_title_salary(1)

get_all_resource(1)

get_content(1)

value(1)

示例#1

显示文件

文件： main.py 项目： billychou/practice_demo

def main(url, data, obj):
    '''
    主函数，在该函数中，完成以下功能：
        1、获取给定url页面中的所有链接
        2、判断链接的url，并添加参数
        3、将转换完成的url存入文件。
    '''
    print '====BEGIN======'
    try:
        fetcher = Fetch(url=url, from_encoding='GBK')  #定义Fetch实例

        content = fetcher.get_content().renderContents()  #获取content内容
        #  利用Beautiful.Beautiful得到content内容，
        #  renderContents()方法的作用？
        #
        for link in fetcher.get_all_link():
            params = data.split(',')
            #处理如果存在参数
            for param in params:
                if param in link:
                    params.remove(param)
            newlink = '%s?%s' % (link, '&'.join(params))
            #链接替换
            content = content.replace('href="%s"' % link,
                                      'href="%s"' % newlink)
        obj_file = open(obj, 'w')
        obj_file.write(content)
        obj_file.close()
        print '====OVER======='
    except Exception, e:
        print 'an exception occur:%s' % str(e)

示例#2

显示文件

文件： main.py 项目： caili5104/practice_demo

def main(url, data, obj):
    '''
    主函数，在该函数中，完成以下功能：
        1、获取给定url页面中的所有链接
        2、判断链接的url，并添加参数
        3、将转换完成的url存入文件爱呢。
    '''
    print '====BEGIN======'
    try: 
        fetcher = Fetch(url = url, from_encoding = 'GBK')
        content = fetcher.get_content().renderContents()
        for link in fetcher.get_all_link():
            params = data.split(',')
            #处理如果存在参数
            for param in params:
                if param in link:
                   params.remove(param)
            newlink = '%s?%s' % (link,'&'.join(params))
            #链接替换
            content = content.replace('href="%s"' % link, 'href="%s"' % newlink)
        obj_file = open(obj, 'w')
        obj_file.write(content)
        obj_file.close()
        print '====OVER======='
    except Exception,e:
        print 'an exception occur:%s' % str(e)

示例#3

显示文件

def do_work(argv):
    url = argv.get('url')
    workmanager = argv.get('workmanager')
    max_size = argv.get('max_size')
    fetcher = Fetch(url)
    for resource in fetcher.get_all_resource():
        if len(resourcelist) > max_size:
            break
        if resource not in resourcelist:
            resourcelist.append(resource)
            logger.get_logger.info(resource)

    for href in fetcher.get_all_link():
        if len(resourcelist) > max_size:
            break
        if href not in urllist:
            urllist.append(href)
            workmanager.add_job(do_work,
                                workmanager=workmanager,
                                url=href,
                                max_size=max_size)