Python Spiderの例

プログラミング言語: Python

名前空間/パッケージ名: seo_report.website

メソッド/関数: Spider

hotexamples.comのコード掲載数: 6

Python Spider - 6件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのseo_report.website.Spiderの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

    def test_parse_sitemap(self, sitemap_content):
        wp = website.Spider(self.site_url, None)

        locations = wp._parse_sitemap(sitemap_content)

        soup = Soup(sitemap_content, "html.parser")
        urls = soup.findAll('url')

        self.assertEqual(len(locations), len(urls))

コード例 #2

ファイルを表示

    def test_init_sitemap_negative(self, sitemap_content, mock_requests):
        sitemap_url = "/sitemap.xml"

        mock_requests.return_value.status_code = requests.codes.not_found
        mock_requests.return_value.content = sitemap_content

        wp = website.Spider(self.site_url, self.site_url + sitemap_url)

        self.assertTrue(self.site_url in wp.pages_to_crawl)

コード例 #3

ファイルを表示

    def test_analyze_crawlers(self, resp_code, mock_requests):
        mock_requests.return_value.status_code = int(resp_code)

        wp = website.Spider(self.site_url, None)
        wp._analyze_crawlers()

        if int(resp_code) == requests.codes.ok:
            self.assertTrue(
                any(earned["achievement"] == BADGES["ROBOTS.TXT"]
                    for earned in wp.achieved),
                "{0} not earned".format(BADGES["ROBOTS.TXT"]))
        else:
            self.assertTrue(
                any(issue["warning"] == WARNINGS["ROBOTS.TXT"]
                    for issue in wp.issues),
                "{0} not raised.".format(WARNINGS["ROBOTS.TXT"]))

コード例 #4

ファイルを表示

    def test_crawl(self, data, mock_requests):
        wp = website.Spider(self.site_url, None)
        wp._analyze_crawlers = mock.MagicMock(name="_analyze_crawlers")

        # set up the mocked responses
        resp_code, content = data.split("|")

        mock_requests.return_value.status_code = int(resp_code)
        mock_requests.return_value.content = content
        wp.crawl()

        if int(resp_code) == requests.codes.ok:
            self.assertEqual(len(wp.issues), 0)

        elif int(resp_code) == requests.codes.not_found:
            self.assertTrue(
                any(issue["warning"] == WARNINGS["BROKEN_LINK"]
                    for issue in wp.issues),
                "{0} not raised.".format(WARNINGS["BROKEN_LINK"]))
        else:
            self.assertTrue(
                any(issue["warning"] == WARNINGS["SERVER_ERROR"]
                    for issue in wp.issues),
                "{0} not raised.".format(WARNINGS["SERVER_ERROR"]))

コード例 #5

ファイルを表示

    def test_init_url(self):
        wp = website.Spider(self.site_url, None)

        self.assertEqual(len(wp.pages_to_crawl), 1)
        self.assertEqual(wp.pages_to_crawl[0], self.site_url)

コード例 #6

ファイルを表示

def analyze(domain, sitemap):
    spider = website.Spider(domain, sitemap)
    report = spider.crawl()

    return (json.dumps(report, indent=4, separators=(',', ': ')))