Python parse_html 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: calibre.ebooks.oeb.parse_utils

메소드/함수: parse_html

hotexamples.com에서의 예제들: 6

Python parse_html - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 calibre.ebooks.oeb.parse_utils.parse_html에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: container.py 프로젝트: michaelbrawn/calibre

 def parse_xhtml(self, data, fname):
     try:
         return parse_html(
             data, log=self.log, decoder=self.decode,
             preprocessor=self.html_preprocessor, filename=fname,
             non_html_file_tags={'ncx'})
     except NotHTML:
         return self.parse_xml(data)

예제 #2

파일 보기

 def parse_xhtml(self, data, fname):
     try:
         return parse_html(data,
                           log=self.log,
                           decoder=self.decode,
                           preprocessor=self.html_preprocessor,
                           filename=fname,
                           non_html_file_tags={'ncx'})
     except NotHTML:
         return self.parse_xml(data)

예제 #3

파일 보기

파일: container.py 프로젝트: 089git/calibre

 def parse_xhtml(self, data, fname='<string>'):
     if self.tweak_mode:
         return parse_html_tweak(data, log=self.log, decoder=self.decode)
     else:
         try:
             return parse_html(
                 data, log=self.log, decoder=self.decode,
                 preprocessor=self.html_preprocessor, filename=fname,
                 non_html_file_tags={'ncx'})
         except NotHTML:
             return self.parse_xml(data)

예제 #4

파일 보기

파일: container.py 프로젝트: Gondulf/calibre

 def parse_xhtml(self, data, fname='<string>'):
     if self.tweak_mode:
         return parse_html_tweak(data, log=self.log, decoder=self.decode)
     else:
         try:
             return parse_html(
                 data, log=self.log, decoder=self.decode,
                 preprocessor=self.html_preprocessor, filename=fname,
                 non_html_file_tags={'ncx'})
         except NotHTML:
             return self.parse_xml(data)

예제 #5

파일 보기

    def read_inline_toc(self, href, frag):
        ans = TOC()
        base_href = '/'.join(href.split('/')[:-1])
        with open(href.replace('/', os.sep), 'rb') as f:
            raw = f.read().decode(self.header.codec)
        root = parse_html(raw, log=self.log)
        body = XPath('//h:body')(root)
        reached = False
        if body:
            start = body[0]
        else:
            start = None
            reached = True
        if frag:
            elems = XPath('//*[@id="%s"]' % frag)(root)
            if elems:
                start = elems[0]

        def node_depth(elem):
            ans = 0
            parent = elem.getparent()
            while parent is not None:
                parent = parent.getparent()
                ans += 1
            return ans

        # Layer the ToC based on nesting order in the source HTML
        current_depth = None
        parent = ans
        seen = set()
        links = []
        for elem in root.iterdescendants(etree.Element):
            if reached and elem.tag == XHTML('a') and elem.get('href', False):
                href = elem.get('href')
                href, frag = urldefrag(href)
                href = base_href + '/' + href
                text = xml2text(elem).strip()
                if (text, href, frag) in seen:
                    continue
                seen.add((text, href, frag))
                links.append((text, href, frag, node_depth(elem)))
            elif elem is start:
                reached = True

        depths = sorted(set(x[-1] for x in links))
        depth_map = {x: i for i, x in enumerate(depths)}
        for text, href, frag, depth in links:
            depth = depth_map[depth]
            if current_depth is None:
                current_depth = 0
                parent.add_item(href, frag, text)
            elif current_depth == depth:
                parent.add_item(href, frag, text)
            elif current_depth < depth:
                parent = parent[-1] if len(parent) > 0 else parent
                parent.add_item(href, frag, text)
                current_depth += 1
            else:
                delta = current_depth - depth
                while delta > 0 and parent.parent is not None:
                    parent = parent.parent
                    delta -= 1
                parent.add_item(href, frag, text)
                current_depth = depth
        return ans

예제 #6

파일 보기

    def read_inline_toc(self, href, frag):
        ans = TOC()
        base_href = '/'.join(href.split('/')[:-1])
        with open(href.replace('/', os.sep), 'rb') as f:
            raw = f.read().decode(self.header.codec)
        root = parse_html(raw, log=self.log)
        body = XPath('//h:body')(root)
        reached = False
        if body:
            start = body[0]
        else:
            start = None
            reached = True
        if frag:
            elems = XPath('//*[@id="%s"]'%frag)(root)
            if elems:
                start = elems[0]

        def node_depth(elem):
            ans = 0
            parent = elem.getparent()
            while parent is not None:
                parent = parent.getparent()
                ans += 1
            return ans

        # Layer the ToC based on nesting order in the source HTML
        current_depth = None
        parent = ans
        seen = set()
        links = []
        for elem in root.iterdescendants(etree.Element):
            if reached and elem.tag == XHTML('a') and elem.get('href',
                    False):
                href = elem.get('href')
                href, frag = urldefrag(href)
                href = base_href + '/' + href
                text = xml2text(elem).strip()
                if (text, href, frag) in seen:
                    continue
                seen.add((text, href, frag))
                links.append((text, href, frag, node_depth(elem)))
            elif elem is start:
                reached = True

        depths = sorted(set(x[-1] for x in links))
        depth_map = {x:i for i, x in enumerate(depths)}
        for text, href, frag, depth in links:
            depth = depth_map[depth]
            if current_depth is None:
                current_depth = 0
                parent.add_item(href, frag, text)
            elif current_depth == depth:
                parent.add_item(href, frag, text)
            elif current_depth < depth:
                parent = parent[-1] if len(parent) > 0 else parent
                parent.add_item(href, frag, text)
                current_depth += 1
            else:
                delta = current_depth - depth
                while delta > 0 and parent.parent is not None:
                    parent = parent.parent
                    delta -= 1
                parent.add_item(href, frag, text)
                current_depth = depth
        return ans