Python LinkExtractor 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: crawler.links.link_extractor

클래스/타입: LinkExtractor

hotexamples.com에서의 예제들: 7

Python LinkExtractor - 7개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 crawler.links.link_extractor.LinkExtractor에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

extract(7)

자주 사용되는 메소드들

extract (7)

예제 #1

파일 보기

파일: test_link_extractor.py 프로젝트: jfharden/simple-web-crawler

    def test_extract_relative_urls(self):
        page = """
        <html>
        <body>
            <p>
                <a href="foo.html">FooPage</a>
            </p>
            <div>
                <div>
                    <div>
                        <div>
                            <a href="/sub/page/../bar.html">BarPage</a>
                        </div>
                    </div>
                </div>
            </div>
        </body>
        </html>
        """
        expected_links = [
            Link(self.crawled_page_url, "/foo.html"),
            Link(self.crawled_page_url, "/sub/bar.html"),
        ]

        actual_links = LinkExtractor.extract(self.crawled_page_url, page)

        self.assertEqual(actual_links, expected_links)

예제 #2

파일 보기

파일: test_link_extractor.py 프로젝트: jfharden/simple-web-crawler

    def test_extract_multiple_links(self):
        page = """
        <html>
        <head>
            <title>Test Page Two Links</title>
        </head>
        <body>
            <p>
                <a href="http://www.example.com/foo.html">FooPage</a>
            </p>
            <div>
                <div>
                    <div>
                        <div>
                            <a href="https://www.example.com/sub/page/bar.html">BarPage</a>
                        </div>
                    </div>
                </div>
            </div>
        </body>
        </html>
        """
        expected_links = [
            Link(self.crawled_page_url, "/foo.html"),
            Link(self.crawled_page_url, "/sub/page/bar.html"),
        ]

        actual_links = LinkExtractor.extract(self.crawled_page_url, page)

        self.assertEqual(actual_links, expected_links)

예제 #3

파일 보기

파일: test_link_extractor.py 프로젝트: jfharden/simple-web-crawler

    def test_extract_no_links(self):
        page = """
        <html>
        <body>
        </body>
        </html>
        """
        expected_links = []

        actual_links = LinkExtractor.extract(self.crawled_page_url, page)
        self.assertEqual(actual_links, expected_links)

예제 #4

파일 보기

파일: page.py 프로젝트: jfharden/simple-web-crawler

    def __init__(self, link, page_text):
        """Initialiser

            Args:
                link: The link that describes this page
                page_text: The text of the page
        """
        self.link = link
        self._page_text = page_text

        self.out_links = LinkExtractor.extract(self.link.url, page_text)

예제 #5

파일 보기

파일: test_link_extractor.py 프로젝트: jfharden/simple-web-crawler

    def test_discards_invalid_links(self):
        page = """
        <html>
        <body>
            <p>
                <a href="ftp://www.example.com/foo.html">FooPage</a>
                <a href="example.com/../../bar.html">BarPage</a>
                <a href="/baz.html">BazPage</a>
            </p>
        </body>
        </html>

        """
        expected_links = [
            Link("http://www.example.com", "/baz.html"),
        ]

        actual_links = LinkExtractor.extract(self.crawled_page_url, page)

        self.assertEqual(actual_links, expected_links)

예제 #6

파일 보기

파일: test_link_extractor.py 프로젝트: jfharden/simple-web-crawler

    def test_extract_one_link(self):
        page = """
        <html>
        <head>
            <title>Test Page One Link</title>
        </head>
        <body>
            <p>
                <a href="http://www.example.com/foo.html">FooPage</a>
            </p>
        </body>
        </html>
        """
        expected_links = [
            Link(self.crawled_page_url, "/foo.html"),
        ]

        actual_links = LinkExtractor.extract(self.crawled_page_url, page)

        self.assertEqual(actual_links, expected_links)

예제 #7

파일 보기

파일: test_link_extractor.py 프로젝트: jfharden/simple-web-crawler

    def test_extract_includes_external_links(self):
        page = """
        <html>
        <body>
            <p>
                <a href="http://www.example.com/foo.html">FooPage</a>
                <a href="http://example.com/bar.html">BarPage</a>
                <a href="http://www.example.net/baz.html">BazPage</a>
            </p>
        </body>
        </html>

        """
        expected_links = [
            Link(self.crawled_page_url, "/foo.html"),
            Link(self.crawled_page_url, "http://example.com/bar.html"),
            Link(self.crawled_page_url, "http://www.example.net/baz.html")
        ]

        actual_links = LinkExtractor.extract(self.crawled_page_url, page)

        self.assertEqual(actual_links, expected_links)