def __init__(self): self.urls = url_manager.UrlManager() self.downloader = html_downloader.HtmlDownloader() self.parser = html_parser.HtmlParser() self.outputer = html_outputer.HtmlOutputer() def craw(self, root_url): count = 1 self.urls.add_new_url(root_url) while self.urls.has_new_url(): try: new_url = self.urls.get_new_url() print 'craw %d:%s'%(count,new_url) html_cont = self.downloader.download(new_url) new_urls,new_data = self.parser.parse(new_url,html_cont) self.urls.add_new_urls(new_urls) self.outputer.collect_data(new_data) if count ==1000: break count = count + 1 except: print'craw failed' self.outputer.output_html()
def __init__(self): # 初始化所需要的对象,包括url管理器,网页下载器,网页解析器,输出器 # 来提供给craw()使用 # 来提供给craw()使用 self.urls = url_manager.UrlManager() self.downloader = html_downloader.HtmlDownloader() self.parser = html_parser.HtmlParser() self.outputer = html_outputer.HtmlOutputer()
def __init__(self): self.urls = url_manager.UrlManager() self.downloder = html_downloader.HtmlDownloader() self.parser = html_parser.HtmlParser() self.outputer = html_outputer.HtmlOutputer()
def __init__(self): # 爬虫调度器 self.urls = url_manager.UrlManager() # 网页下载器 self.downloader = html_downloader.HtmlDownloader() # 网页解析器 self.parser = html_parser.HtmlParser() # 爬取内容输出 self.outputer = html_outputer.HtmlOutputer()
def __init__(self): # URL管理器 self.urls = url_manager.UrlManager() # HTML下载器 self.downloader = html_downloader.HtmlDownloader() # HTML解析器 self.parser = html_parser.HtmlParser() # HTML输出器 self.outputer = html_outputer.HtmlOutputer()
def __init__(self): # 初始化url管理器 self.urls = url_manager.UrlManager() # 初始化下载器 self.downloader = html_downloader.HtmlDownload() # 初始化解析器 self.parser = html_parser.HtmlParser() # 初始化输出器 self.outputer = html_outputer.HtmlOutputer()
def __init__(self): #url 管理器 self.urls = url_manager.Urlmanager() #网页下载器 self.downoader = html_downloader.HtmlDownloader() #网页解析器 self.paeser = html_parser.HtmlParser() #输出器 self.outputer = html_outputer.HtmlOutputer()
def __init__(self): #url管理 self.urls = url_manager.UrlManager() #url下载 self.downloader = html_download.HtmlDownloader() #html解析 self.parser = html_parser.HtmlParser() #下载为html文件 self.outputer = html_outputer.HtmlOutputer()
def __init__(self): #类初始化 #url管理器 self.urls = url_manager.UrlManager() #html下载器 self.downloader = html_downloader.HtmlDownloader() #html解析器 self.parser = html_parser.HtmlParser() #html输出器 self.outputer = html_outputer.HtmlOutPuter()
def __init__(self): """构造函数 声明各个模块函数 urls为url管理器 downloader为网页下载器 parser为网页解析器 outputer为网页输出 """ self.urls = url_manager.UrlManager() self.downloader = html_downloader.HtmlDownloader() self.parser = html_parser.HtmlParser() self.outputer = html_outputer.HtmlOutputer()
def __init__(self): self.urls = url_manager.UrlManager() #先把要用到的模块中的类定义好,再在下面写类中的具体方法。 self.downloader = html_downloader.HtmlDownloader() self.parser = html_parser.HtmlParser() self.outputer = html_outputer.HtmlOutputer()
def __init__(self): #构造函数中进行初始化 self.urls = url_manager.UrlManager() #URL管理器 self.downloader = html_downloader.HtmlDownLoader() #URL下载器 self.parser = html_parser.HtmlParser() #解析器 self.outputer = html_outputer.HtmlOutPuter() #输出
def __init__(self): # 在此声明初始化其他的类和方法,以便在下方调用,因为,这是一个总的大纲 self.urls = url_manager.UrlManager() # url管理器 self.downloader = html_downloader.HtmlDownloader() # 下载器中创建下载类 self.parser = html_parser.HtmlParser() # 解析器 self.outputer = html_outputer.HtmlOutputer() # 输出器
def __init__(self): self.downloader = html_downloader.HtmlDownloader() self.parser = html_parser.HtmlParser() self.outputer = html_outputer.HtmlOutputer()
def __init__(self): self.urls = url_manager.UrlManager() self.downloader = html_download.HtmlDownload() self.parser = html_parser.HtmlParser() self.outputer = output_html.OuputHtml()
def __init__(self): self.urls = url_manager.UrlManager() #定义 url 管理器 self.downloader = html_downloader.HtmlDownloader() #定义 html 下载器 self.parser = html_parser.HtmlParser() #定义 html 贾西奇 self.outputer = html_outputer.HtmlOutputer() #定义 html 输出器
def __init__(self): self.urls=url_manger.UrlMangager() #url管理器 self.downloader=html_downloader.HtmlDwonloader()#下载器 self.parser=html_parser.HtmlParser()#解析器 self.outputer=html_outputer.HtmlOutputer()#输出器
#!/usr/bin/env python2
def __init__(self): #初始化各个对象 self.urls = url_manager.UrlManager() #管理器 self.downloader = html_downloader.HtmlDownloader() #下载器 self.parser = html_parser.HtmlParser() #解析器 self.outputer = html_outputer.HtmlOutputer() #输出器
def __init__(self): self.urls = url_manager.UrlManager() # 网页管理器 self.requester = html_requester.HtmlRequester() # 网页请求器 self.parser = html_parser.HtmlParser() # 网页解析器 self.outputer = html_outputer.HtmlOutputer() # 网页输出器
def __init__(self): self.urls = url_manager.UrlManager() #创建url管理器 self.downloader = html_downloader.HtmlDownloader() #创建网页下载器 self.parser = html_parser.HtmlParser() #创建网页解析器 self.outputer = html_outputer.HtmlOutputer() #创建输出器
def __init__(self): self.urls=url_manager.UrlManager() #初始化启动url管理器 self.downloader=html_downloader.HtmlDownloader() #初始化启动下载器 self.parser=html_parser.HtmlParser() #初始化启动解析器 self.outputer=html_outputer.HtmlOutputer() #初始化启动输入器