Python HtmlParser示例

编程语言: Python

命名空间/包名称: parsers

类/类型: HtmlParser

hotexamples.com的示例: 16

Python HtmlParser - 已找到16个示例。这些是从开源项目中提取的最受好评的parsers.HtmlParser现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

get_text(7)

get_links(4)

HtmlParser(3)

_parse_movies(1)

get_meta(1)

get_transcludes(1)

parse_urls(1)

parser_json(1)

示例#1

显示文件

class SpiderMain(object):
    
    def __init__(self):
        self.manager = URLManager()
        self.down = Download()
        self.parser = HtmlParser()
        self.output = DataOutput()
    
    def crawl(self, root_url):
        content = self.down.download(root_url)
        movie_ids = self.parser.parse_urls(content)
        count = 0
        
        for mid in movie_ids:
            if count > 10:
                break
            movie_link = '''http://service.library.mtime.com/Movie.api?\
            Ajax_CallBack=true\
            &Ajax_CallBackType=Mtime.Library.Services\
            &Ajax_CallBackMethod=GetMovieOverviewRating\
            &Ajax_CrossDomain=1\
            &Ajax_RequestUrl=http%3A%2F%2Fmovie.mtime.com%2F{0}%2F\
            &t={1}\
            &Ajax_CallBackArgument0={2}\
            '''.format(mid, datetime.datetime.now().strftime("%Y%m%d%H%M%S%f"), mid)
            
            res = self.down.download(movie_link.replace(' ', ''))
            self.parser.parser_json(res)
            count += 1
        
        self.output.store_data(self.parser.items)
        self.output.close_connect()

示例#2

显示文件

文件： Crawler.py 项目： daytime25/testgit

    def crawl(self):
        while not self.queue.empty():
            (url, attempt, depth) = self.queue.get()

            print((url, attempt, depth))

            if self.is_outer_url(url):
                self.outer_link_counter += 1
            elif self.is_subdomain_url(url):
                self.subdomain_set.add(self.get_subdomain_name(url))
            else:
                self.inner_link_counter += 1
                if depth >= self.max_depth:
                    continue

                content = self.get_page(url)
                if not content:
                    if attempt >= self.max_attempts:
                        self.error_counter += 1
                        continue
                    else:
                        self.queue.put((url, attempt+1, depth))
                        continue

                parser =HtmlParser(content)
                url_list = parser.get_links()

                for u in url_list:
                    if len(u) < 1:
                        continue
                    u = self.make_full_link(u)
                    if u not in self.reached_urls:
                        self.reached_urls[u] = depth+1
                        self.queue.put((u, 0, depth+1))

        print(self.reached_urls)
        print(self.queue.qsize())
        print("Subdomains:", self.subdomain_set)
        print("Inner links count:", self.inner_link_counter)
        print("Outer links count:", self.outer_link_counter)
        print("Unavailable pages count:", self.error_counter)

示例#3

显示文件

class ArticleReader:
    ''' Read article content using suitable parsers.
    '''
    def __init__(self, **kwargs):
        self.config = kwargs
        self.wtparser = WikitextParser(**kwargs)
        self.hparser = HtmlParser(**kwargs)

    def get_seed_links(self, text, targets=None):
        return self.wtparser.get_seed_links(text, targets)

    def get_links(self, title, text, html):
        links = self.wtparser.get_links(title, text)

        if self.config['transcludes']['enabled']:
            transcludes = self.wtparser.get_transcludes(text)
            transcludes |= self.hparser.get_transcludes(html)
        else:
            transcludes = set()

        return links, transcludes

示例#4

显示文件