Skip to content

xxguo/crawler

Repository files navigation

这是一个爬虫程序。

采用多任务处理爬虫,可以很容易的扩展成分布式任务结构

数据存储运用的是cassandra分布式数据库

任务库使用的是mongodb数据库

中间键运用的是redis数据库

爬虫程序部署完成后,不用重启可以自行添加、删除、修改任务,无需重启。

本程序监控了大约2000多个网站。实现了数据及时的监测。

去重使用了两道过滤

提供的有api,直接调用来处理任务

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published