Python Crawler 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: sitemapgenerator.crawler

클래스/타입: Crawler

hotexamples.com에서의 예제들: 3

Python Crawler - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 sitemapgenerator.crawler.Crawler에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Crawler(2)

run(2)

예제 #1

파일 보기

def test_run(path, links_all, links_unvisited, httpbin, recurse):
    c = Crawler(httpbin.url)
    c.run(url=path, recurse=recurse[0], throttle=recurse[1])

    assert c.links.keys() == links_all.keys()
    for k, v in c.links.items():
        assert 'soup' in v
        if recurse[0] is False:
            assert 'visited' not in v
        else:
            if k.startswith('http'):
                assert 'visited' not in v
            else:
                assert 'visited' in v

    if recurse[0] is False:
        assert sorted(list(c.unvisited_links)) == sorted(links_unvisited)
    else:
        assert list(c.unvisited_links) == []

예제 #2

파일 보기

파일: test_crawler.py 프로젝트: techjacker/sitemapgenerator

def test_run(path, links_all, links_unvisited, httpbin, recurse):
    c = Crawler(httpbin.url)
    c.run(url=path, recurse=recurse[0], throttle=recurse[1])

    assert c.links.keys() == links_all.keys()
    for k, v in c.links.items():
        assert 'soup' in v
        if recurse[0] is False:
            assert 'visited' not in v
        else:
            if k.startswith('http'):
                assert 'visited' not in v
            else:
                assert 'visited' in v

    if recurse[0] is False:
        assert sorted(list(c.unvisited_links)) == sorted(links_unvisited)
    else:
        assert list(c.unvisited_links) == []

예제 #3

파일 보기

파일: sitemapgenerator.py 프로젝트: techjacker/sitemapgenerator

def main():
    parser = argparse.ArgumentParser(
        description='Generate an XML sitemap for a domain'
    )
    parser.add_argument(
        'domain',
        type=str,
        help='domain to crawl'
    )
    parser.add_argument('-f', '--file', help='write the xml to a file')
    parser.add_argument(
        '-t',
        '--throttle',
        type=int,
        help='max time in secs to wait between requesting URLs'
    )
    parser.add_argument(
        '-l',
        '--limit',
        type=int,
        help='max number of URLs to crawl'
    )
    parser.add_argument(
        '-q',
        '--quiet',
        action='store_true'
    )
    args = parser.parse_args()

    crawler = Crawler(args.domain, args.quiet, args.throttle, args.limit)
    if args.file:
        sitemap = Sitemap(args.file, args.quiet)

    crawler.run(recurse=True)
    if sitemap:
        sitemap.run(crawler.domain_links)