tax-policy-crawler

从国税总局，及其他税务相关机构的网站，爬取税收政策、解读、条约等信息，以备后续处理

技术特点：

反爬虫相关的优化：动态ua 动态IP代理（采用proxy_pool的开源服务）延迟下载：配置处理（scrapy的系统middleware处理）启用/禁用cookies：配置处理（scrapy的系统middleware处理）
待爬取项不能遗漏：单地址的失败重试、整体的遗漏重下
并发爬取
多种存储方式、排重

Name		Name	Last commit message	Last commit date
Latest commit History 65 Commits
TaxPolicyCrawler		TaxPolicyCrawler
TaxPolicyCrawlerScrapy		TaxPolicyCrawlerScrapy
bin		bin
chromedriver		chromedriver
.gitignore		.gitignore
README.md		README.md
entrypoint.py		entrypoint.py
entrypointEx.py		entrypointEx.py
entrypointLaw.py		entrypointLaw.py
entrypointRobot.py		entrypointRobot.py
entrypointRobotPFYH.py		entrypointRobotPFYH.py
entrypointRobotZSYH.py		entrypointRobotZSYH.py
entrypointShui5.py		entrypointShui5.py
scrapy.cfg		scrapy.cfg
test.py		test.py