Skip to content

shichangtai/ScrapySpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Scrapy-Spider

Scrapy爬虫,抓取豆瓣影评新浪微博

selenium webdriver + phantomjs 实现登录,验证码的处理方式为自动下载到程序目录后用户手动输入。

反Ban措施: user-agent池交替下载, ip池交替登录, 设置下载延迟与延迟波动

douban:
默认运行为抓取豆瓣电影top250 [排名/名称/年份/评分/导演/编剧/分类/演员/介绍]
scrapy crawl douban -a movie_index=电影编号
则运行影评抓取模式 [电影名称/用户/打分/评分时间/评价内容]

SinaSpider:
新浪微博数据 [微博名/微博内容/赞/转发/评论/日期与地点]

About

Scrapy spider, grab douban movie reviews and Sina blog

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages