Python ScraperUtils.extract_canonical_urlの例

プログラミング言語: Python

名前空間/パッケージ名: JL

クラス/型: ScraperUtils

メソッド/関数: extract_canonical_url

hotexamples.comのコード掲載数: 1

Python ScraperUtils.extract_canonical_url - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのJL.ScraperUtils.extract_canonical_urlの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

scraper_main(4)

build_uber_opener(1)

extract_canonical_url(1)

tidy_url(1)

コード例 #1

ファイルを表示

ファイル: test_ScraperUtils.py プロジェクト: 7t6g/journalisted

    def testCanonicalURLs(self):
        # html, base_url, expected
        snippets = [ ('<head><link rel="canonical" href="http://example.com/products" /></head>', "", "http://example.com/products" ),
            ('<head><link href="http://example.com/products" rel="canonical" /></head>', "", "http://example.com/products"),
            ("""<HEAD><LINK foo="wibble"
                HRef ="http://example.com/products" class="pibble"
                REL = "canonical" /   ></HEAD>""", "", "http://example.com/products"),
            ('<head><meta property="og:url" content="http://www.imdb.com/title/tt0117500/" /></head>', "", 'http://www.imdb.com/title/tt0117500/'),
            # test relative url
            ('<head><meta property="og:url" content="/title/tt0117500/" /></head>', "http://www.imdb.com/title/tt0117500/", 'http://www.imdb.com/title/tt0117500/'),
            # a live BBC example:
#            (urllib2.urlopen('http://www.bbc.co.uk/news/world-africa-13058694').read(), 'http://www.bbc.co.uk/news/world-africa-13058694'),
            # and one from the mirror:
#          (urllib2.urlopen('http://www.mirror.co.uk/news/top-stories/2011/05/11/william-and-kate-to-get-around-on-old-bikes-during-their-luxury-honeymoon-115875-23121689/').read(),
#                "http://www.mirror.co.uk/news/royal-wedding/2011/05/11/royal-honeymoon-prince-william-and-kate-middleton-to-get-around-seychelles-island-on-rickety-old-bikes-115875-23121689/" ),
            ]
        for html,base_url,expected in snippets:
            got = ScraperUtils.extract_canonical_url(html,base_url)
            self.assertEqual(got,expected)