这是一个爬虫程序。 采用多任务处理爬虫,可以很容易的扩展成分布式任务结构 数据存储运用的是cassandra分布式数据库 任务库使用的是mongodb数据库 中间键运用的是redis数据库 爬虫程序部署完成后,不用重启可以自行添加、删除、修改任务,无需重启。 本程序监控了大约2000多个网站。实现了数据及时的监测。 去重使用了两道过滤 提供的有api,直接调用来处理任务