Python URLManager.URLManager 예제들

프로그래밍 언어: Python

클래스/타입: URLManager

메소드/함수: URLManager

hotexamples.com에서의 예제들: 2

Python URLManager.URLManager - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 URLManager.URLManager 패키지로부터 RDFDatabank에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

getRandom(3)

URLManager(2)

UrlManager(1)

add_new_url(1)

get_new_url(1)

has_new_url(1)

예제 #1

파일 보기

파일: test.py 프로젝트: wangjiancn/FirstSpider

 def __init__(self):
     self.manager = URLManager()
     self.downloader = HtmlDownloader()
     self.parser = HtmlParser()
     self.output = DataOutput()

예제 #2

파일 보기

import URLManager
import fetcher
"""
Feed the fetcher with url
"""
if __name__ == '__main__':
    config = configparser.ConfigParser()
    config.read('crawler.config')

    print("Master started. Initial page {}".format(
        config["SITE"]["initial_page"]))

    # init
    start_time = datetime.datetime.now()

    url_manager = URLManager.URLManager()
    url_manager.insert_url(config["SITE"]["initial_page"], 0, 0, -1)

    fetcher = fetcher.Fetcher(url_manager)

    end_time = datetime.datetime.now()
    delta = end_time - start_time
    print("Init time", delta)

    # start crawling
    while url_manager.has_next_url():  # TODO: change if parallel
        print("queue size", url_manager.get_size())
        next_url = url_manager.get_next_url()

        print("fetching", next_url)
        fetcher.get_page(next_url)