コード例 #1
0
    def __init__(self):
    self.urls = url_manager.UrlManager()
    self.downloader = html_downloader.HtmlDownloader()
    self.parser = html_parser.HtmlParser()
    self.outputer = html_outputer.HtmlOutputer()

    
    def craw(self, root_url):
        count = 1
            self.urls.add_new_url(root_url)
            while self.urls.has_new_url():
                try:
                    new_url = self.urls.get_new_url()
                    print 'craw %d:%s'%(count,new_url)
                    html_cont = self.downloader.download(new_url)
                    new_urls,new_data = self.parser.parse(new_url,html_cont)
                    self.urls.add_new_urls(new_urls)
                    self.outputer.collect_data(new_data)
                    if count ==1000:
                        break
                    count = count + 1
                except:
                    print'craw failed'


        self.outputer.output_html()
コード例 #2
0
 def __init__(self):
     # 初始化所需要的对象,包括url管理器,网页下载器,网页解析器,输出器
     # 来提供给craw()使用
     # 来提供给craw()使用
     self.urls = url_manager.UrlManager()
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()
コード例 #3
0
    def __init__(self):
        self.urls = url_manager.UrlManager()

        self.downloder = html_downloader.HtmlDownloader()

        self.parser = html_parser.HtmlParser()

        self.outputer = html_outputer.HtmlOutputer()
コード例 #4
0
 def __init__(self):
     # 爬虫调度器
     self.urls = url_manager.UrlManager()
     # 网页下载器
     self.downloader = html_downloader.HtmlDownloader()
     # 网页解析器
     self.parser = html_parser.HtmlParser()
     # 爬取内容输出
     self.outputer = html_outputer.HtmlOutputer()
コード例 #5
0
 def __init__(self):
     # URL管理器
     self.urls = url_manager.UrlManager()
     # HTML下载器
     self.downloader = html_downloader.HtmlDownloader()
     # HTML解析器
     self.parser = html_parser.HtmlParser()
     # HTML输出器
     self.outputer = html_outputer.HtmlOutputer()
コード例 #6
0
ファイル: spider_main.py プロジェクト: Alalapapa/baike_spider
 def __init__(self):
     # 初始化url管理器
     self.urls = url_manager.UrlManager()
     # 初始化下载器
     self.downloader = html_downloader.HtmlDownload()
     # 初始化解析器
     self.parser = html_parser.HtmlParser()
     # 初始化输出器
     self.outputer = html_outputer.HtmlOutputer()
コード例 #7
0
 def __init__(self):
     #url 管理器
     self.urls = url_manager.Urlmanager()
     #网页下载器
     self.downoader = html_downloader.HtmlDownloader()
     #网页解析器
     self.paeser = html_parser.HtmlParser()
     #输出器
     self.outputer = html_outputer.HtmlOutputer()
コード例 #8
0
 def __init__(self):
     #url管理
     self.urls = url_manager.UrlManager()
     #url下载
     self.downloader = html_download.HtmlDownloader()
     #html解析
     self.parser = html_parser.HtmlParser()
     #下载为html文件
     self.outputer = html_outputer.HtmlOutputer()
コード例 #9
0
 def __init__(self):
     #类初始化
     #url管理器
     self.urls = url_manager.UrlManager()
     #html下载器
     self.downloader = html_downloader.HtmlDownloader()
     #html解析器
     self.parser = html_parser.HtmlParser()
     #html输出器
     self.outputer = html_outputer.HtmlOutPuter()
コード例 #10
0
ファイル: spider_main.py プロジェクト: IrisLeekk/python-baike
 def __init__(self):
     """构造函数
     声明各个模块函数
     urls为url管理器
     downloader为网页下载器
     parser为网页解析器
     outputer为网页输出
     """
     self.urls = url_manager.UrlManager()
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()
コード例 #11
0
 def __init__(self):
     self.urls = url_manager.UrlManager()  #先把要用到的模块中的类定义好,再在下面写类中的具体方法。
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()
コード例 #12
0
 def __init__(self):  #构造函数中进行初始化
     self.urls = url_manager.UrlManager()  #URL管理器
     self.downloader = html_downloader.HtmlDownLoader()  #URL下载器
     self.parser = html_parser.HtmlParser()  #解析器
     self.outputer = html_outputer.HtmlOutPuter()  #输出
コード例 #13
0
 def __init__(self):  # 在此声明初始化其他的类和方法,以便在下方调用,因为,这是一个总的大纲
     self.urls = url_manager.UrlManager()  # url管理器
     self.downloader = html_downloader.HtmlDownloader()  # 下载器中创建下载类
     self.parser = html_parser.HtmlParser()  # 解析器
     self.outputer = html_outputer.HtmlOutputer()  # 输出器
コード例 #14
0
 def __init__(self):
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()
コード例 #15
0
 def __init__(self):
     self.urls = url_manager.UrlManager()
     self.downloader = html_download.HtmlDownload()
     self.parser = html_parser.HtmlParser()
     self.outputer = output_html.OuputHtml()
コード例 #16
0
ファイル: spider_main.py プロジェクト: lilili001/py
    def __init__(self):

        self.urls = url_manager.UrlManager()  #定义 url 管理器
        self.downloader = html_downloader.HtmlDownloader()  #定义 html 下载器
        self.parser = html_parser.HtmlParser()  #定义 html 贾西奇
        self.outputer = html_outputer.HtmlOutputer()  #定义 html 输出器
コード例 #17
0
 def __init__(self):
     self.urls=url_manger.UrlMangager() #url管理器
     self.downloader=html_downloader.HtmlDwonloader()#下载器
     self.parser=html_parser.HtmlParser()#解析器
     self.outputer=html_outputer.HtmlOutputer()#输出器
コード例 #18
0
#!/usr/bin/env python2
コード例 #19
0
ファイル: spider_main.py プロジェクト: Maliaoya/web_tasks
 def __init__(self):  #初始化各个对象
     self.urls = url_manager.UrlManager()  #管理器
     self.downloader = html_downloader.HtmlDownloader()  #下载器
     self.parser = html_parser.HtmlParser()  #解析器
     self.outputer = html_outputer.HtmlOutputer()  #输出器
コード例 #20
0
ファイル: test2.py プロジェクト: QiuHongHao123/Knowledgegraph
 def __init__(self):
     self.urls = url_manager.UrlManager()  # 网页管理器
     self.requester = html_requester.HtmlRequester()  # 网页请求器
     self.parser = html_parser.HtmlParser()  # 网页解析器
     self.outputer = html_outputer.HtmlOutputer()  # 网页输出器
コード例 #21
0
ファイル: spider_main.py プロジェクト: wpczoe/baike_spider
 def __init__(self):
     self.urls = url_manager.UrlManager()  #创建url管理器
     self.downloader = html_downloader.HtmlDownloader()  #创建网页下载器
     self.parser = html_parser.HtmlParser()  #创建网页解析器
     self.outputer = html_outputer.HtmlOutputer()  #创建输出器
コード例 #22
0
ファイル: spider_main.py プロジェクト: AlexRedfield/python-
 def __init__(self):
     self.urls=url_manager.UrlManager()                   #初始化启动url管理器
     self.downloader=html_downloader.HtmlDownloader()     #初始化启动下载器
     self.parser=html_parser.HtmlParser()                 #初始化启动解析器
     self.outputer=html_outputer.HtmlOutputer()           #初始化启动输入器