Python HtmlParser примеры использования

Язык программирования: Python

Пространство имен/Пакет: baike_spider.html_parser

Метод/Функция: HtmlParser

Примеров на hotexamples.com: 22

Python HtmlParser - 22 примеров найдено. Это лучшие примеры Python кода для baike_spider.html_parser.HtmlParser, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Пример #1

Показать файл

    def __init__(self):
    self.urls = url_manager.UrlManager()
    self.downloader = html_downloader.HtmlDownloader()
    self.parser = html_parser.HtmlParser()
    self.outputer = html_outputer.HtmlOutputer()

    
    def craw(self, root_url):
        count = 1
            self.urls.add_new_url(root_url)
            while self.urls.has_new_url():
                try:
                    new_url = self.urls.get_new_url()
                    print 'craw %d:%s'%(count,new_url)
                    html_cont = self.downloader.download(new_url)
                    new_urls,new_data = self.parser.parse(new_url,html_cont)
                    self.urls.add_new_urls(new_urls)
                    self.outputer.collect_data(new_data)
                    if count ==1000:
                        break
                    count = count + 1
                except:
                    print'craw failed'


        self.outputer.output_html()

Пример #2

Показать файл

Файл: spider_main.py Проект: neverever03/Baike_spider

 def __init__(self):
     # 初始化所需要的对象,包括url管理器，网页下载器，网页解析器，输出器
     # 来提供给craw（）使用
     # 来提供给craw（）使用
     self.urls = url_manager.UrlManager()
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()

Пример #3

Показать файл

    def __init__(self):
        self.urls = url_manager.UrlManager()

        self.downloder = html_downloader.HtmlDownloader()

        self.parser = html_parser.HtmlParser()

        self.outputer = html_outputer.HtmlOutputer()

Пример #4

Показать файл

Файл: spider_main.py Проект: benbenxiaosheng/baike_spider

 def __init__(self):
     # 爬虫调度器
     self.urls = url_manager.UrlManager()
     # 网页下载器
     self.downloader = html_downloader.HtmlDownloader()
     # 网页解析器
     self.parser = html_parser.HtmlParser()
     # 爬取内容输出
     self.outputer = html_outputer.HtmlOutputer()

Пример #5

Показать файл

 def __init__(self):
     # URL管理器
     self.urls = url_manager.UrlManager()
     # HTML下载器
     self.downloader = html_downloader.HtmlDownloader()
     # HTML解析器
     self.parser = html_parser.HtmlParser()
     # HTML输出器
     self.outputer = html_outputer.HtmlOutputer()

Пример #6

Показать файл

Файл: spider_main.py Проект: Alalapapa/baike_spider

 def __init__(self):
     # 初始化url管理器
     self.urls = url_manager.UrlManager()
     # 初始化下载器
     self.downloader = html_downloader.HtmlDownload()
     # 初始化解析器
     self.parser = html_parser.HtmlParser()
     # 初始化输出器
     self.outputer = html_outputer.HtmlOutputer()

Пример #7

Показать файл

Файл: spider_main.py Проект: IvanYue/SimpleWebCrawler

 def __init__(self):
     #url 管理器
     self.urls = url_manager.Urlmanager()
     #网页下载器
     self.downoader = html_downloader.HtmlDownloader()
     #网页解析器
     self.paeser = html_parser.HtmlParser()
     #输出器
     self.outputer = html_outputer.HtmlOutputer()

Пример #8

Показать файл

Файл: spider_main.py Проект: AndyJelly/python_Project

 def __init__(self):
     #url管理
     self.urls = url_manager.UrlManager()
     #url下载
     self.downloader = html_download.HtmlDownloader()
     #html解析
     self.parser = html_parser.HtmlParser()
     #下载为html文件
     self.outputer = html_outputer.HtmlOutputer()

Пример #9

Показать файл

Файл: spider_main.py Проект: wuhaixu6420/PythonCrawlerImooc

 def __init__(self):
     #类初始化
     #url管理器
     self.urls = url_manager.UrlManager()
     #html下载器
     self.downloader = html_downloader.HtmlDownloader()
     #html解析器
     self.parser = html_parser.HtmlParser()
     #html输出器
     self.outputer = html_outputer.HtmlOutPuter()

Пример #10

Показать файл

Файл: spider_main.py Проект: IrisLeekk/python-baike

 def __init__(self):
     """构造函数
     声明各个模块函数
     urls为url管理器
     downloader为网页下载器
     parser为网页解析器
     outputer为网页输出
     """
     self.urls = url_manager.UrlManager()
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()

Пример #11

Показать файл

Файл: spider_main.py Проект: wjlucc/my_first_crawler

 def __init__(self):
     self.urls = url_manager.UrlManager()  #先把要用到的模块中的类定义好，再在下面写类中的具体方法。
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()

Пример #12

Показать файл

Файл: spider_main.py Проект: pHraySc/Spider_BaiduBaike_imooc

 def __init__(self):  #构造函数中进行初始化
     self.urls = url_manager.UrlManager()  #URL管理器
     self.downloader = html_downloader.HtmlDownLoader()  #URL下载器
     self.parser = html_parser.HtmlParser()  #解析器
     self.outputer = html_outputer.HtmlOutPuter()  #输出

Пример #13

Показать файл

 def __init__(self):  # 在此声明初始化其他的类和方法，以便在下方调用，因为，这是一个总的大纲
     self.urls = url_manager.UrlManager()  # url管理器
     self.downloader = html_downloader.HtmlDownloader()  # 下载器中创建下载类
     self.parser = html_parser.HtmlParser()  # 解析器
     self.outputer = html_outputer.HtmlOutputer()  # 输出器

Пример #14

Показать файл

 def __init__(self):
     self.downloader = html_downloader.HtmlDownloader()
     self.parser = html_parser.HtmlParser()
     self.outputer = html_outputer.HtmlOutputer()

Пример #15

Показать файл

Файл: spider_main.py Проект: soldier828/baike_spider

 def __init__(self):
     self.urls = url_manager.UrlManager()
     self.downloader = html_download.HtmlDownload()
     self.parser = html_parser.HtmlParser()
     self.outputer = output_html.OuputHtml()

Пример #16

Показать файл

Файл: spider_main.py Проект: lilili001/py

    def __init__(self):

        self.urls = url_manager.UrlManager()  #定义 url 管理器
        self.downloader = html_downloader.HtmlDownloader()  #定义 html 下载器
        self.parser = html_parser.HtmlParser()  #定义 html 贾西奇
        self.outputer = html_outputer.HtmlOutputer()  #定义 html 输出器

Пример #17

Показать файл

 def __init__(self):
     self.urls=url_manger.UrlMangager() #url管理器
     self.downloader=html_downloader.HtmlDwonloader()#下载器
     self.parser=html_parser.HtmlParser()#解析器
     self.outputer=html_outputer.HtmlOutputer()#输出器

Пример #18

Показать файл

#!/usr/bin/env python2

Пример #19

Показать файл

Файл: spider_main.py Проект: Maliaoya/web_tasks

 def __init__(self):  #初始化各个对象
     self.urls = url_manager.UrlManager()  #管理器
     self.downloader = html_downloader.HtmlDownloader()  #下载器
     self.parser = html_parser.HtmlParser()  #解析器
     self.outputer = html_outputer.HtmlOutputer()  #输出器

Пример #20

Показать файл

Файл: test2.py Проект: QiuHongHao123/Knowledgegraph

 def __init__(self):
     self.urls = url_manager.UrlManager()  # 网页管理器
     self.requester = html_requester.HtmlRequester()  # 网页请求器
     self.parser = html_parser.HtmlParser()  # 网页解析器
     self.outputer = html_outputer.HtmlOutputer()  # 网页输出器

Пример #21

Показать файл

Файл: spider_main.py Проект: wpczoe/baike_spider

 def __init__(self):
     self.urls = url_manager.UrlManager()  #创建url管理器
     self.downloader = html_downloader.HtmlDownloader()  #创建网页下载器
     self.parser = html_parser.HtmlParser()  #创建网页解析器
     self.outputer = html_outputer.HtmlOutputer()  #创建输出器

Пример #22

Показать файл

Файл: spider_main.py Проект: AlexRedfield/python-

 def __init__(self):
     self.urls=url_manager.UrlManager()                   #初始化启动url管理器
     self.downloader=html_downloader.HtmlDownloader()     #初始化启动下载器
     self.parser=html_parser.HtmlParser()                 #初始化启动解析器
     self.outputer=html_outputer.HtmlOutputer()           #初始化启动输入器