Python UrlContentRetrieve示例

编程语言: Python

命名空间/包名称: url_content_retrieve

hotexamples.com的示例: 2

Python UrlContentRetrieve - 已找到2个示例。这些是从开源项目中提取的最受好评的url_content_retrieve.UrlContentRetrieve现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

url_content(1)

示例#1

显示文件

文件： http_links_collector.py 项目： ricardogarfe/crawler-mswl

    def __init__(self, starting_url):
        '''Initialize to set urlContentRetrieve object with startingURL.
        
        Keyword arguments:
        starting_url -- URL to start crawling.

        '''

        # Setup Log
        self.setup_log()
        # Define url content retrieve to use
        self.url_content_retrieve = UrlContentRetrieve(starting_url)

示例#2

显示文件

文件： http_links_collector.py 项目： ricardogarfe/crawler-mswl

class HttpLinksCollector:
    '''Class to manage links from url.
    
    Created on 27/09/2012

    @author: Ricardo García Fernández
    @mail: [email protected]

    '''

    def __init__(self, starting_url):
        '''Initialize to set urlContentRetrieve object with startingURL.
        
        Keyword arguments:
        starting_url -- URL to start crawling.

        '''

        # Setup Log
        self.setup_log()
        # Define url content retrieve to use
        self.url_content_retrieve = UrlContentRetrieve(starting_url)
    
    def retrieve_links(self, target_url, depth=1, level=1):
        '''
        Retrieve links from url content until defined depth organized in levels.
        
        Keyword arguments:
        target_url -- URL to analyze content and retrive links.
        depth -- Depth of links to analyze.
        level -- Level in which start to analyze.
        
        '''

        # Define ScrapItem to generate json file
        # scrap_item = ScrapItem()
        
        links = {}

        if depth >= level:

            soup_code = self.url_content_retrieve.url_content(target_url)
            
            if soup_code:
                formatted_links = \
                    self.url_content_retrieve.\
                        retrieve_formatted_links(soup_code)
                for link in formatted_links :
    
                    self.logger.info(self.print_depth(level) + " " + link)

                    try:
                        sublinks = \
                            self.retrieve_links(link, depth, level + 1)
                        links[link] = sublinks
                    except ValueError, value_error:
                        # Invalid URL
                        self.logger.error("URL is not correct:\t" + link + \
                                          "\nException:\t"\
                                           + str(value_error)\
                                           + "\nStack trace:\t" + \
                                           traceback.format_exc())
                            
        return links