INSTALL

分布式定向抓取集群

一个完整的抓取数据流：

确认安装Python2.7及依赖库:

配置Redis,mysql的连接参数配置maps.cfg路径位置

首先确认redis和mysql服务是否已启动并可用，然后执行：

1.启动redis服务 redis-server;启动mysql服务,创建数据库表
2.初始化redis待爬取数据的url
3.启动脚本crawl.py,test_spider 参数用来测试脚本环境是否正常,roach 参数是启动爬虫， -d 是日志路径 python crawl.py roach -d /home/admin/spider/ > /tmp/log 2>&1 &
4.爬虫脚本启动后，会长时间爬取淘宝suggest数据，可通过日志和数据库查看

:: ./crawl spider_name options: -d ./logs 可将输出写入指定文件夹的日志中

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
lxml-3.0.1		lxml-3.0.1
Logger.py		Logger.py
README.md		README.md
Utility.py		Utility.py
base.py		base.py
crawl.py		crawl.py
crawl.py.bak		crawl.py.bak
downloader.py		downloader.py
format.py		format.py
lxml-3.0.1.tar.gz		lxml-3.0.1.tar.gz
maps.cfg		maps.cfg
monitor.sh		monitor.sh
pipeline.py		pipeline.py
run.sh		run.sh
scheduler.py		scheduler.py
settings.py		settings.py
test.py		test.py