Python UrlManager.old_urls_size 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: URLManager

클래스/타입: UrlManager

메소드/함수: old_urls_size

hotexamples.com에서의 예제들: 2

Python UrlManager.old_urls_size - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 URLManager.UrlManager.old_urls_size에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

get_new_url(29)

has_new_url(27)

add_new_url(25)

add_new_urls(24)

old_url_size(20)

UrlManager(18)

save_progress(7)

old_urls_size(2)

get_all_patents_num(1)

add_urls(1)

get_new_urls(1)

get_urls(1)

add_duplication(1)

hes_new_url(1)

new_url_size(1)

new_urls_size(1)

add_new_urls_to_old(1)

remove_duplication(1)

save(1)

save_process(1)

예제 #1

파일 보기

    def url_manager_proc(self, url_que, conn_que, root_url):
        url_manager = UrlManager()
        url_manager.add_new_url(root_url)
        while True:
            while url_manager.has_new_url():
                new_url = url_manager.get_new_url()
                # 将新的url发给工作节点
                url_que.put(new_url)
                print('old_url=', url_manager.old_urls_size())
                if url_manager.old_urls_size() > 2000:
                    url_que.put('end')
                    print('控制节点发出结束通知')
                    # 关闭管理节点，同时存储set状态
                    url_manager.save_progress('new_urls.txt',
                                              url_manager.new_urls)
                    url_manager.save_progress('old_urls.txt',
                                              url_manager.old_urls)
                    return
            # 将从result_solve_proc  获取的urls添加到URL管理器
            try:
                if not conn_que.empty():
                    urls = conn_que.get()
                    for url in urls:
                        url_manager.add_new_url(url)

            except BaseException:
                time.sleep(0.1)

예제 #2

파일 보기

파일: SpiderMan.py 프로젝트: dbafu/spiders

class SpiderMan(object):

    def __init__(self):
        self.manager = UrlManager()
        self.downloader = HtmlDownloader()
        self.parser = HtmlParser()
        self.output = DataOutput()

    def crawl(self, root_url):
        # 添加入口
        self.manager.add_new_url(root_url)
        while(self.manager.has_new_url() and
              self.manager.old_urls_size() < 100):
            try:
                new_url = self.manager.get_new_url()
                # print(new_url, '.......')
                html = self.downloader.download(new_url)
                # print(html)
                new_urls, data = self.parser.parse(new_url, html)
                self.manager.add_new_urls(new_urls)
                self.output.store_data(data)
                print('已经抓取 %s 个链接' % self.manager.old_urls_size())
            except Exception as e:
                print(e)
                # print('crawl failed')
        self.output.output_html()