Scrapy爬虫,抓取豆瓣影评新浪微博
selenium webdriver + phantomjs 实现登录,验证码的处理方式为自动下载到程序目录后用户手动输入。
反Ban措施: user-agent池交替下载, ip池交替登录, 设置下载延迟与延迟波动
douban:
默认运行为抓取豆瓣电影top250 [排名/名称/年份/评分/导演/编剧/分类/演员/介绍]
scrapy crawl douban -a movie_index=电影编号
则运行影评抓取模式 [电影名称/用户/打分/评分时间/评价内容]