Esempi in Python per HtmlParser.parse

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: HtmlParser

Classe/tipologia: HtmlParser

Metodo/funzione: parse

Esempi su hotexamples.com: 5

HtmlParser.parse in Python: 5 esempi trovati. Questi sono i migliori esempi reali in Python per HtmlParser.HtmlParser.parse, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

HtmlParser(30)

parser(30)

parse(5)

parser_json(5)

getHtml(4)

get_data(2)

get_page_urls(2)

get(1)

parser_html(1)

parser_article_page(1)

parserCatalog(1)

chapter_parser(1)

parse_test(1)

parse_next_page(1)

parse_article(1)

chapterlist_parser(1)

novel_parser(1)

getdata(1)

get_summary(1)

get_post_list_urls(1)

get_page(1)

get_page_num(1)

get_node(1)

Parser(1)

get_kw_track(1)

get_kw_album(1)

get_job(1)

get_items(1)

get_intern_urls(1)

get_image(1)

get_essential_posts_detail_url(1)

get_collect_page_num(1)

get_city_code(1)

get_brand_urls(1)

get_all_patents_info(1)

get_new_urls(1)

Esempio n. 1

Mostra file

File: SpiderMan.py Progetto: dbafu/spiders

class SpiderMan(object):

    def __init__(self):
        self.manager = UrlManager()
        self.downloader = HtmlDownloader()
        self.parser = HtmlParser()
        self.output = DataOutput()

    def crawl(self, root_url):
        # 添加入口
        self.manager.add_new_url(root_url)
        while(self.manager.has_new_url() and
              self.manager.old_urls_size() < 100):
            try:
                new_url = self.manager.get_new_url()
                # print(new_url, '.......')
                html = self.downloader.download(new_url)
                # print(html)
                new_urls, data = self.parser.parse(new_url, html)
                self.manager.add_new_urls(new_urls)
                self.output.store_data(data)
                print('已经抓取 %s 个链接' % self.manager.old_urls_size())
            except Exception as e:
                print(e)
                # print('crawl failed')
        self.output.output_html()

Esempio n. 2

Mostra file

File: SpiderWork.py Progetto: NetworkRanger/python-spider-project

class SpiderWork(object):

    def __init__(self):
        # 初始化分布式进程中的工作节点的连接工作
        # 实现第一步: 使用BaseManager注册获取Queue的方法名称
        BaseManager.register('get_task_queue')
        BaseManager.register('get_result_queue')
        # 实现第二步: 连接到服务器
        server_addr = '127.0.0.1'
        print('Connect to server %s...' % server_addr)
        # 端口和验证口令注意保持与服务器进行设置的完全一致:
        self.m = BaseManager(address=(server_addr, 8001), authkey='baike'.encode('utf-8'))
        # 从网络连接
        self.m.connect()
        # 实现第三步：获取Queue的对象
        self.task = self.m.get_task_queue()
        self.result = self.m.get_result_queue()
        # 初始化网页下载器和解析器
        self.downloader = HtmlDownloader()
        self.parser = HtmlParser()
        print('init finish')

    def crawl(self):
        while True:
            try:
                if not self.task.empty():
                    url = self.task.get()

                    if url == 'end':
                        print('控制节点通知爬虫节点停止工作...')
                        # 接着通知其它节点停止工作
                        self.result.put({'new_urls': 'end', 'data': 'end'})
                        return
                    print('爬虫节点正在解析:%s' % url.encode('utf-8'))
                    content = self.downloader.download(url)
                    new_urls, data = self.parser.parse(url, content)
                    self.result.put({'new_urls': new_urls, 'data': data})
            except EOFError as e:
                print('连接工作节点失败')
                return
            except Exception as e:
                print(e)
                print('Crawl fail')

Esempio n. 3

Mostra file

class SpideMan(object):
    def __init__(self):
        self.manager = URLManager()
        self.downloader = HtmlDownloader()
        self.parser = HtmlParser()
        self.output = DataOutput()

    def crawl(self, root_url):
        self.manager.add_new_url(root_url)

        while self.manager.has_new_url() and self.manager.old_url_size() < 100:
            try:
                new_url = self.manager.get_new_url()
                html = self.downloader.download(new_url)
                new_urls, data = self.parser.parse(new_url, html)
                self.manager.add_new_urls(new_urls)
                self.output.store_data(data)
                print("catch %s link" % self.manager.old_url_size())
            except Exception as e:
                print(e)
        self.output.output_html()

Esempio n. 4

Mostra file

File: roll20_scrapper.py Progetto: Itinte/roll20_tokens_stealer

def save_tokens(webpage, dir_name, dst_PATH, dwl_dir, sleep=5, verbose=True):

    os.makedirs(dst_PATH + dir_name, exist_ok=True)

    if verbose:
        print('============================')
        print(dir_name)

    imgNameExtractor = HtmlExtractor(
        ['\<em>', '\</em>'], ['<div class='],
        lambda x: x[x.index('>') + 1:x.index('</')])
    urlExtractor = HtmlExtractor(['<a class="lightly" href="h'], None,
                                 lambda x: x[25:-2])
    roll20Parser = HtmlParser([urlExtractor, imgNameExtractor])
    urlAndNames = roll20Parser.parse(webpage)
    links = urlAndNames[urlExtractor]
    names = urlAndNames[imgNameExtractor]

    assert (len(links) == len(names))

    if verbose:
        print('============================')
        print('Found', len(links), 'extracted images')
        print('============================')

    for j in range(len(links)):
        url = links[j]
        webbrowser.get('windows-default').open_new_tab(url)
        time.sleep(sleep)
        _name = names[j]
        if verbose:
            print(j, '--', _name, '--', url)
        for _img in os.listdir(dwl_dir):
            if (str(_img)[:3] == 'max') and (str(_img)[-1] == 'g'):
                move(dwl_dir + _img,
                     dst_PATH + dir_name + '/' + _name + '.png')

    if not (len(os.listdir(dst_PATH + dir_name)) == len(links)):
        print('WARNING: number of url different than final number of images')

Esempio n. 5

Mostra file

class Crawler(object):
    """
    用途: 主要爬虫程序
    """
    def __init__(self, bind_domain):

        # 建立管理爬取URL的物件 , 用于记录已经爬过的URL
        self.urlManager = UrlManager(enable_external_link=False,
                                     bind_domain=bind_domain)

        # 建立请求链接的物件
        self.downloader = HtmlDownloader()

        # 建立转换Html源码成lxml.html物件 , 获取新的链接
        self.parser = HtmlParser()

    def craw(self, url):

        # 加入根页面
        self.urlManager.add_new_url(root_url)

        # 查询Manager内储存url的集合
        while self.urlManager.has_new_url():

            # 获取新的url链接
            request_url = self.urlManager.get_new_url()
            print("目前请求{0}".format(request_url))

            # 下载页面
            html_content = self.downloader.downlaod(request_url)

            # 转换html后筛选出所有a记录并且取得新的链接
            new_urls = self.parser.parse(request_url, html_content)

            # 加入链接到管理器
            self.urlManager.add_new_urls(new_urls)