Skip to content

lwcodes/qixin_headless_spiders

 
 

Repository files navigation

启信宝企业信息爬虫

使用REQUESTIUM实现requests和selenium进行差量化抓取

架构设计

链接队列

  • 5K以下的二级行业直接构建URL
  • 5K-10K之间的二级行业构建注册时间正序和逆序构建URL
  • 10K-20K之间的二级行业根据三级行政区域构建URL
  • 20K-100K之间的二级行业根据三级行政区域和注册资本构建URL
  • 100K以上的二级行业,使用搜索条件全排列构建URL

多进程-单线程-单协程

REQUESTIUM的原因是需要登录和更新COOKIE,同时还需要解决验证码的问题(目前还未解决). 但是缺点是只能单进程运行一个REQUESTIUM进程,每个进程运行一个账号,所以需要多个账号多进程. 且由于对IP和账号都进行了限制,所以需要多个账号,高间断的请求.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 97.1%
  • XSLT 2.9%