Skip to content

dalige88/CrawlerProxy

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

CralwerProxy

集爬虫代理IP获取和验证为一体的代理IP工程


运行环境:OS:Win7 Python:Anaconda3 IDE:Pycharm


代码实现思路: 1、 代理抓取,从各大代理IP网站获取免费资源,所有IP不经验证直接存入mongodb 2、 代理验证,删掉所有不可用代理,包括响应超时和状态码错误的代理,同时标记可用代理为available,并增加计数管理 3、 代理使用,将所有标记available的代理加载到redis缓存中,通过random方法随机调用 4、 代理更新,既要获取新的代理,也要验证旧的代理,保证代理的高可用性


使用方法: 1、 查看帮助,python main.py -h 2、 获取代理,python main.py -f 3、 验证代理,python main.py -v

About

集爬虫代理IP获取和验证为一体的代理IP工程

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%