示例#1
0
    def __init__(self):
    self.urls = url_manager.UrlManager()
    self.downloader = html_downloader.HtmlDownloader()
    self.parser = html_parser.HtmlParser()
    self.outputer = html_outputer.HtmlOutputer()

    
    def craw(self, root_url):
        count = 1
            self.urls.add_new_url(root_url)
            while self.urls.has_new_url():
                try:
                    new_url = self.urls.get_new_url()
                    print 'craw %d:%s'%(count,new_url)
                    html_cont = self.downloader.download(new_url)
                    new_urls,new_data = self.parser.parse(new_url,html_cont)
                    self.urls.add_new_urls(new_urls)
                    self.outputer.collect_data(new_data)
                    if count ==1000:
                        break
                    count = count + 1
                except:
                    print'craw failed'


        self.outputer.output_html()
示例#2
0
 def __init__(self):
     # 初始化所需要的对象,包括url管理器,网页下载器,网页解析器,输出器
     # 来提供给craw()使用
     # 来提供给craw()使用
     self.urls = url_manager.UrlManager()
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()
示例#3
0
    def __init__(self):
        self.urls = url_manager.UrlManager()

        self.downloder = html_downloader.HtmlDownloader()

        self.parser = html_parser.HtmlParser()

        self.outputer = html_outputer.HtmlOutputer()
示例#4
0
 def __init__(self):
     # 初始化url管理器
     self.urls = url_manager.UrlManager()
     # 初始化下载器
     self.downloader = html_downloader.HtmlDownloader()
     # 初始化解析器
     self.parser = html_parser.HtmlParser()
     # 初始化输出器
     self.outputer = html_outputer.HtmlOutputer()
 def __init__(self):
     # 爬虫调度器
     self.urls = url_manager.UrlManager()
     # 网页下载器
     self.downloader = html_downloader.HtmlDownloader()
     # 网页解析器
     self.parser = html_parser.HtmlParser()
     # 爬取内容输出
     self.outputer = html_outputer.HtmlOutputer()
示例#6
0
 def __init__(self):
     #url 管理器
     self.urls = url_manager.Urlmanager()
     #网页下载器
     self.downoader = html_downloader.HtmlDownloader()
     #网页解析器
     self.paeser = html_parser.HtmlParser()
     #输出器
     self.outputer = html_outputer.HtmlOutputer()
示例#7
0
 def __init__(self):
     # URL管理器
     self.urls = url_manager.UrlManager()
     # HTML下载器
     self.downloader = html_downloader.HtmlDownloader()
     # HTML解析器
     self.parser = html_parser.HtmlParser()
     # HTML输出器
     self.outputer = html_outputer.HtmlOutputer()
 def __init__(self):
     #类初始化
     #url管理器
     self.urls = url_manager.UrlManager()
     #html下载器
     self.downloader = html_downloader.HtmlDownloader()
     #html解析器
     self.parser = html_parser.HtmlParser()
     #html输出器
     self.outputer = html_outputer.HtmlOutPuter()
    def paser_content(self, new_urls):
        dataset = []
        for pageurl in new_urls:
            page_html = html_downloader.HtmlDownloader().download(pageurl)
            soup_obj = BeautifulSoup(page_html,
                                     'html.parser',
                                     from_encoding='utf-8')
            new_data = self._get_new_data(pageurl, soup_obj)

            dataset.append(new_data)
        return dataset
示例#10
0
 def __init__(self):
     """构造函数
     声明各个模块函数
     urls为url管理器
     downloader为网页下载器
     parser为网页解析器
     outputer为网页输出
     """
     self.urls = url_manager.UrlManager()
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()
示例#11
0
 def __init__(self):
     self.reader = xml_reader.xmlReader("source.xml")
     #通过解析xml获取资源存放路径srcPath
     srcName = self.reader.getAttrByTagName("srcPath")
     #设置文件存放路径(改)
     self.path = os.getcwd() + "\\resource\\" + srcName + "\\"
     #URL下载器
     self.downloader = html_downloader.HtmlDownloader()
     #URL输出器
     self.outputer = html_outputer.HtmlOutputer()
     #存放css文件路径的list
     self.css_url = list()
示例#12
0
 def __init__(self):
     self.urls = url_manager.UrlManager()  #先把要用到的模块中的类定义好,再在下面写类中的具体方法。
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()
示例#13
0
#!/usr/bin/env python2
示例#14
0
 def __init__(self):
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParsesr()
     self.outputer = html_outputer.HtmlOutputer()
     self.database = Database()
示例#15
0
 def __init__(self):  # 在此声明初始化其他的类和方法,以便在下方调用,因为,这是一个总的大纲
     self.urls = url_manager.UrlManager()  # url管理器
     self.downloader = html_downloader.HtmlDownloader()  # 下载器中创建下载类
     self.parser = html_parser.HtmlParser()  # 解析器
     self.outputer = html_outputer.HtmlOutputer()  # 输出器
示例#16
0
 def __init__(self):  #初始化各个对象
     self.urls = url_manager.UrlManager()  #管理器
     self.downloader = html_downloader.HtmlDownloader()  #下载器
     self.parser = html_parser.HtmlParser()  #解析器
     self.outputer = html_outputer.HtmlOutputer()  #输出器
示例#17
0
 def __init__(self):
     self.urls = url_manager.UrlManager()  #创建url管理器
     self.downloader = html_downloader.HtmlDownloader()  #创建网页下载器
     self.parser = html_parser.HtmlParser()  #创建网页解析器
     self.outputer = html_outputer.HtmlOutputer()  #创建输出器
示例#18
0
    def __init__(self):

        self.urls = url_manager.UrlManager()  #定义 url 管理器
        self.downloader = html_downloader.HtmlDownloader()  #定义 html 下载器
        self.parser = html_parser.HtmlParser()  #定义 html 贾西奇
        self.outputer = html_outputer.HtmlOutputer()  #定义 html 输出器