Esempi in Python per KetchlipHTMLParser

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: ketchlip.helpers.ketchlip_html_parser

Classe/tipologia: KetchlipHTMLParser

Esempi su hotexamples.com: 12

KetchlipHTMLParser in Python: 12 esempi trovati. Questi sono i migliori esempi reali in Python per ketchlip.helpers.ketchlip_html_parser.KetchlipHTMLParser, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

title(5)

description(4)

text(4)

prettify(1)

Esempio n. 1

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

    def test_prettify(self):
        html_with_script = """
<html>
    <head>
        <title>Hello World!>/title>
        <script>
            $(document).ready(function() {
                $("button").button();
            });
        </script>
    </head>
    <body>
        <div>a brown fox</div>
    <body>
    <scr + ipt>
        $(document).ready(function() {
            $("button").button();
        });
    </scr + ipt>
</html>
"""
        # todo find a smarter way to compare html

        html_with_no_script = "\n<html>\n    <head>\n        <title>Hello World!>/title>\n        \n    </head>\n    <body>\n        <div>a brown fox</div>\n    <body>\n    \n</html>\n"

        parser = KetchlipHTMLParser()
        self.assertEqual(html_with_no_script, parser.prettify(html_with_script))

Esempio n. 2

Mostra file

File: indexer.py Progetto: ashpool/ketchlip

    def indexing(self, result):
        """
        result => {Crawler.CONTENT:html, Crawler.URL:http://.., Crawler.EXPANDED_URL:http://.., Crawler.LINKS:[]}
        """
        try:
            start = time.time()
            DESCRIPTION_MAX_LENGTH = 260
            url = result[Crawler.URL].strip()

            if url in self.lookup_url:
                logger.info("Already indexed " + url)
                return

            parser = KetchlipHTMLParser(result[Crawler.CONTENT])
            title = parser.title()
            text = parser.text()
            description = parser.description(DESCRIPTION_MAX_LENGTH)

            self.lookup_url[url] = [len(self.lookup_url.items()), "", "", ""]
            self.lookup_url[url][self.EXPANDED_URL_POS] = result[Crawler.EXPANDED_URL]
            self.lookup_url[url][self.TITLE_POS] = title
            self.lookup_url[url][self.DESCRIPTION_POS] = description
            self.add_page_to_index(self.index, self.lookup_url[url][self.URL_INDEX_POS], " ".join([title, description, text]))

            if Crawler.LINKS in result:
                self.graph[url] = result[Crawler.LINKS]

            elapsed = (time.time() - start)
            logger.info("Indexed " + url + " in " + "%.2f" % round(elapsed, 2) + " seconds")
            gevent.sleep(0)
        except HTMLParseError, e:
            logger.info("Failed to parse HTML")

Esempio n. 3

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

 def test_parse_description_should_chomp_(self):
     MAX_LENGTH = 20
     parser = KetchlipHTMLParser(self.html)
     self.assertEqual("This is the content ...", parser.description(MAX_LENGTH))

Esempio n. 4

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

 def test_parse_description_should_return_empty_string_if_description_is_missing(self):
     parser = KetchlipHTMLParser(self.html_with_empty_head_and_body)
     self.assertEqual("", parser.description())

Esempio n. 5

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

 def test_parse_description(self):
     parser = KetchlipHTMLParser(self.html)
     self.assertEqual("This is the content meta tag", parser.description())

Esempio n. 6

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

 def test_parse_text_without_empty__html_content_should_return_empty_string(self):
     parser = KetchlipHTMLParser("")
     self.assertEqual("", parser.text())

Esempio n. 7

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

 def test_parse_text_without_body_content_should_return_empty_string(self):
     parser = KetchlipHTMLParser(self.html_with_empty_head_and_body)
     self.assertEqual("", parser.text())

Esempio n. 8

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

 def test_parse_text(self):
     parser = KetchlipHTMLParser(self.html)
     self.assertEqual("inside a p. inside a td. inside another td. inside a div. inside a span.", parser.text())

Esempio n. 9

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

 def test_parse_title_should_return_empty_string_if_content_is_empty(self):
     parser = KetchlipHTMLParser("")
     self.assertEqual("", parser.title())

Esempio n. 10

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

 def test_parse_title_should_return_empty_string_if_title_tag_is_missing(self):
     parser = KetchlipHTMLParser(self.html_with_empty_head_and_body)
     self.assertEqual("", parser.title())

Esempio n. 11

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

 def test_parse_title_should_return_empty_string_if_title_is_empty(self):
     parser = KetchlipHTMLParser(self.html_no_title_text)
     self.assertEqual("", parser.title())

Esempio n. 12

Mostra file

File: ketchlip_html_parser_test.py Progetto: ashpool/ketchlip

 def test_parse_title(self):
     parser = KetchlipHTMLParser(self.html)
     self.assertEqual("This is the title", parser.title())