Skip to content

x140y40/anger6Spider

 
 

Repository files navigation

还在改进完善中,现在只是一个demo版本,仅仅实现下载页面中的图片功能.

实现: python实现的网络爬虫 基于tornado,redis,mongodb实现 利用协程和tornado异步库高效地爬取页面

抓取到的url存储在redis中

数据存储在mongodb中

html解析部分使用beautifulsoup

特点: 可以通过定制对不同的URL采用不同的爬虫进行抓取 举例: app = Application([ (r"^http://www.baidu.com.$", "anger6Spider.spiders.spider.BaseSpider"), (r"^http://www.jianshu.com.$", "anger6Spider.spiders.spider.UrlSeekSpider"), ])

软件依懒: python使用3.4.4版本 tornado版本4.3

pip install tornado pip install pycurl pip install beautifulsoup pip install redis pip install motor

运行: python anger6Spider/worker.py

About

python爬虫学习

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 92.9%
  • HTML 5.7%
  • JavaScript 1.4%