Esempi in Python per HtmlParser.parser

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: Parser

Classe/tipologia: HtmlParser

Metodo/funzione: parser

Esempi su hotexamples.com: 3

HtmlParser.parser in Python: 3 esempi trovati. Questi sono i migliori esempi reali in Python per Parser.HtmlParser.parser, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

HtmlParser(5)

parser(3)

is_frozen(1)

is_visitor(1)

parse_data(1)

parse_followee_page_num(1)

parse_followees(1)

parse_follower_page_num(1)

parse_followers(1)

is_exceptional(1)

parse_is_taobao(1)

parse_pid(1)

parse_profile(1)

parse_timeline_page_num(1)

parse_timelines(1)

parse_uid(1)

parse_urls(1)

parse_is_enterprise(1)

Esempio n. 1

Mostra file

File: Manage.py Progetto: xfzhu2003/github

def run(key):
    url = set_url(host, key)
    Cookies()
    spider = Spider(url)
    html = spider.spider(BASEHEADERS)
    if not verify(html):
        BASEHEADERS["Cookie"] = BASEHEADERS["Cookie"] + Cookies.cookie_str(
            ["acw_tc", "PHPSESSID"])
        proxieser.proxies()
    parser = HtmlParser(html)
    data = parser.parser("fund")

    print(data)

Esempio n. 2

Mostra file

File: spiderwork.py Progetto: qgmzhnn/rrcar

class SpiderWork(object):
    def __init__(self):
        #初始化分布式进程工作节点的连接工程
        #实现第一步，使用BaseManager注册用于获取Queue的方法名称
        BaseManager.register('get_task_queue')
        BaseManager.register('get_result_queue')
        BaseManager.register('get_page_queue')
        BaseManager.register('get_data_queue')
        sever_addr = '127.0.0.1'

        print('Connect to sever %s...' % sever_addr)
        self.m = BaseManager(address=(sever_addr, 8001),
                             authkey='yuan'.encode('utf-8'))
        self.m.connect()
        self.task = self.m.get_task_queue()
        self.result = self.m.get_result_queue()
        self.page = self.m.get_page_queue()
        self.data = self.m.get_data_queue()
        self.downloader = HtmlDownloader()
        self.parser = HtmlParser()
        print('*--------------------------------------------*')
        print('初始化完成')
        print('*--------------------------------------------*')

    def crawl(self):
        a = 1
        # exit()
        while True:
            try:
                if not self.page.empty():
                    page = self.page.get()
                    urls = self.downloader.download(page)
                    # print(len(urls))
                    self.result.put(urls)
                if not self.task.empty():
                    url = self.task.get()
                    if url == 'end':
                        print('控制节点通知爬虫节点停止工作')
                        self.result.put({'new_urls': 'end', 'data': 'end'})
                        return
                    print('爬虫节点正在解析第%s条' % a)
                    a = a + 1
                    data = self.parser.parser(url)
                    self.data.put(data)
            except EOFError:
                print('连接工作节点失败')
                return
            except Exception as e:
                print(e)
                print('Crawl fail')

Esempio n. 3

Mostra file

File: Verify.py Progetto: Doraying1230/Python-Study

def get_title(response):
    # title = HtmlParser(response).parser("title")
    parser = HtmlParser(response)
    title = parser.parser("title")

    return title