Skip to content

jazeltq/simple_crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 

Repository files navigation

simple_crawler

a simple crawler

main.py [ -u url ] [ -d deep ] [ -f logfile ] [-l 1-5 ] [ --testself ] [ --thread number ] [ --dbfile filepath ] [ --key=”HTML5” ]

    参数说明:
    
    -u 指定爬虫开始地址
    
    -d 指定爬虫深度
    
    --thread 指定线程池大小,多线程爬取页面,可选参数,默认10
    
    --dbfile 存放结果数据到指定的数据库(sqlite)文件中
    
    --key 页面内的关键词,获取满足该关键词的网页,可选参数,默认为所有页面
    
    -l 日志记录文件记录详细程度,数字越大记录越详细,可选参数,默认spider.log
    
    --testself 程序自测,可选参数 """

About

a simple crawler

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages