使用REQUESTIUM实现requests和selenium进行差量化抓取
- 5K以下的二级行业直接构建URL
- 5K-10K之间的二级行业构建注册时间正序和逆序构建URL
- 10K-20K之间的二级行业根据三级行政区域构建URL
- 20K-100K之间的二级行业根据三级行政区域和注册资本构建URL
- 100K以上的二级行业,使用搜索条件全排列构建URL
REQUESTIUM的原因是需要登录和更新COOKIE,同时还需要解决验证码的问题(目前还未解决). 但是缺点是只能单进程运行一个REQUESTIUM进程,每个进程运行一个账号,所以需要多个账号多进程. 且由于对IP和账号都进行了限制,所以需要多个账号,高间断的请求.