Skip to content

shangxueba采集器,使用Python,selenium proxy ip 访问 www.shangxueba.com 资源. 突破IP以及下载次数限制.

Notifications You must be signed in to change notification settings

FashtimeDotCom/shangxueba

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

1.通过 Python,selenium,BeautifulSoup 采集 http://www.shangxueba.com/store_2040588_1.html 可供下载的资料地址

2.模拟客户端请求,通过proxy http://www.youdaili.cn/ 突破IP以及下载次数限制

3.在输入验证码页面,手动输入验证码

personalData()函数里面的ids可以随意修改,最终取的时候,会随机取10条数据.

安装需要的扩展库. 使用方法 : python fetch.py proxyIP proxyPort

说明: 按现有计费方式:需要输入1000个验证码才会有1元收入.

ubuntu Phantomjs 1.9 install method http://stackoverflow.com/questions/8778513/how-can-i-setup-run-phantomjs-on-ubuntu

使用 pyvirtualdisplay 隐藏窗口 http://stackoverflow.com/questions/1418082/is-it-possible-to-hide-the-browser-in-selenium-rc sudo apt-get install xvfb python-pip sudo pip install pyvirtualdisplay

About

shangxueba采集器,使用Python,selenium proxy ip 访问 www.shangxueba.com 资源. 突破IP以及下载次数限制.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%