Python HtmlDownloader示例，baike_spider.html_downloader.HtmlDownloader Python示例

示例#1

0

显示文件

    def __init__(self):
    self.urls = url_manager.UrlManager()
    self.downloader = html_downloader.HtmlDownloader()
    self.parser = html_parser.HtmlParser()
    self.outputer = html_outputer.HtmlOutputer()

    
    def craw(self, root_url):
        count = 1
            self.urls.add_new_url(root_url)
            while self.urls.has_new_url():
                try:
                    new_url = self.urls.get_new_url()
                    print 'craw %d:%s'%(count,new_url)
                    html_cont = self.downloader.download(new_url)
                    new_urls,new_data = self.parser.parse(new_url,html_cont)
                    self.urls.add_new_urls(new_urls)
                    self.outputer.collect_data(new_data)
                    if count ==1000:
                        break
                    count = count + 1
                except:
                    print'craw failed'


        self.outputer.output_html()

示例#2

0

显示文件

文件： spider_main.py 项目： neverever03/Baike_spider

 def __init__(self):
     # 初始化所需要的对象,包括url管理器，网页下载器，网页解析器，输出器
     # 来提供给craw（）使用
     # 来提供给craw（）使用
     self.urls = url_manager.UrlManager()
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()

示例#3

0

显示文件

    def __init__(self):
        self.urls = url_manager.UrlManager()

        self.downloder = html_downloader.HtmlDownloader()

        self.parser = html_parser.HtmlParser()

        self.outputer = html_outputer.HtmlOutputer()

示例#4

0

显示文件

文件： spider_main.py 项目： hysdx12345/LEARNPYTHON

 def __init__(self):
     # 初始化url管理器
     self.urls = url_manager.UrlManager()
     # 初始化下载器
     self.downloader = html_downloader.HtmlDownloader()
     # 初始化解析器
     self.parser = html_parser.HtmlParser()
     # 初始化输出器
     self.outputer = html_outputer.HtmlOutputer()

示例#5

0

显示文件

文件： spider_main.py 项目： benbenxiaosheng/baike_spider

 def __init__(self):
     # 爬虫调度器
     self.urls = url_manager.UrlManager()
     # 网页下载器
     self.downloader = html_downloader.HtmlDownloader()
     # 网页解析器
     self.parser = html_parser.HtmlParser()
     # 爬取内容输出
     self.outputer = html_outputer.HtmlOutputer()

示例#6

0

显示文件

文件： spider_main.py 项目： IvanYue/SimpleWebCrawler

 def __init__(self):
     #url 管理器
     self.urls = url_manager.Urlmanager()
     #网页下载器
     self.downoader = html_downloader.HtmlDownloader()
     #网页解析器
     self.paeser = html_parser.HtmlParser()
     #输出器
     self.outputer = html_outputer.HtmlOutputer()

示例#7

0

显示文件

 def __init__(self):
     # URL管理器
     self.urls = url_manager.UrlManager()
     # HTML下载器
     self.downloader = html_downloader.HtmlDownloader()
     # HTML解析器
     self.parser = html_parser.HtmlParser()
     # HTML输出器
     self.outputer = html_outputer.HtmlOutputer()

示例#8

0

显示文件

文件： spider_main.py 项目： wuhaixu6420/PythonCrawlerImooc

 def __init__(self):
     #类初始化
     #url管理器
     self.urls = url_manager.UrlManager()
     #html下载器
     self.downloader = html_downloader.HtmlDownloader()
     #html解析器
     self.parser = html_parser.HtmlParser()
     #html输出器
     self.outputer = html_outputer.HtmlOutPuter()

示例#9

0

显示文件

文件： html_parser.py 项目： windflyhuang/InfoExtraction

    def paser_content(self, new_urls):
        dataset = []
        for pageurl in new_urls:
            page_html = html_downloader.HtmlDownloader().download(pageurl)
            soup_obj = BeautifulSoup(page_html,
                                     'html.parser',
                                     from_encoding='utf-8')
            new_data = self._get_new_data(pageurl, soup_obj)

            dataset.append(new_data)
        return dataset

示例#10

0

显示文件

文件： spider_main.py 项目： IrisLeekk/python-baike

 def __init__(self):
     """构造函数
     声明各个模块函数
     urls为url管理器
     downloader为网页下载器
     parser为网页解析器
     outputer为网页输出
     """
     self.urls = url_manager.UrlManager()
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()

示例#11

0

显示文件

 def __init__(self):
     self.reader = xml_reader.xmlReader("source.xml")
     #通过解析xml获取资源存放路径srcPath
     srcName = self.reader.getAttrByTagName("srcPath")
     #设置文件存放路径（改）
     self.path = os.getcwd() + "\\resource\\" + srcName + "\\"
     #URL下载器
     self.downloader = html_downloader.HtmlDownloader()
     #URL输出器
     self.outputer = html_outputer.HtmlOutputer()
     #存放css文件路径的list
     self.css_url = list()

示例#12

0

显示文件

文件： spider_main.py 项目： wjlucc/my_first_crawler

 def __init__(self):
     self.urls = url_manager.UrlManager()  #先把要用到的模块中的类定义好，再在下面写类中的具体方法。
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()

示例#13

0

显示文件

#!/usr/bin/env python2

示例#14

0

显示文件

 def __init__(self):
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParsesr()
     self.outputer = html_outputer.HtmlOutputer()
     self.database = Database()

示例#15

0

显示文件

 def __init__(self):  # 在此声明初始化其他的类和方法，以便在下方调用，因为，这是一个总的大纲
     self.urls = url_manager.UrlManager()  # url管理器
     self.downloader = html_downloader.HtmlDownloader()  # 下载器中创建下载类
     self.parser = html_parser.HtmlParser()  # 解析器
     self.outputer = html_outputer.HtmlOutputer()  # 输出器

示例#16

0

显示文件

文件： spider_main.py 项目： Maliaoya/web_tasks

 def __init__(self):  #初始化各个对象
     self.urls = url_manager.UrlManager()  #管理器
     self.downloader = html_downloader.HtmlDownloader()  #下载器
     self.parser = html_parser.HtmlParser()  #解析器
     self.outputer = html_outputer.HtmlOutputer()  #输出器

示例#17

0

显示文件

文件： spider_main.py 项目： wpczoe/baike_spider

 def __init__(self):
     self.urls = url_manager.UrlManager()  #创建url管理器
     self.downloader = html_downloader.HtmlDownloader()  #创建网页下载器
     self.parser = html_parser.HtmlParser()  #创建网页解析器
     self.outputer = html_outputer.HtmlOutputer()  #创建输出器

示例#18

0

显示文件

文件： spider_main.py 项目： lilili001/py

    def __init__(self):

        self.urls = url_manager.UrlManager()  #定义 url 管理器
        self.downloader = html_downloader.HtmlDownloader()  #定义 html 下载器
        self.parser = html_parser.HtmlParser()  #定义 html 贾西奇
        self.outputer = html_outputer.HtmlOutputer()  #定义 html 输出器