Skip to content

利用Python库以及scrapy框架对数据进行爬取

Notifications You must be signed in to change notification settings

ly803744/spiders

Repository files navigation

文件内容对应表

  • baidumainspider1.py (百度主页)利用urllib库爬取百度首页并保存在页面上

  • urlretrieve2.py (百度百科首页)利用urllib中的urlretrieve保存网页,图片以及视频

  • urllibcode3.py (百度参数传值)利用urlencode对get请求中的参数编码,quote以及unquote对get请求的参数值进行编码与解码

  • baidufanyi4.py (百度翻译输入内容)利用urllib中的Request方法传入需要翻译的内容

  • ssl5.py (百度) 解决ssl error[SSL:CERTIFICATE_VERIFY_FAILED]的问题

  • zhanzhangsmallpic5.py (站长素材)封装请求头爬取小图片

  • zhanzhangbigpic6.py (站长素材大图片)封装请求头并设置代理ip

  • zhanzhangqqsmile7.py (站长素材之qq表情包)爬取详细的表情包信息***

  • doubanfilmtop8.py (豆瓣电影排行榜)图片及网页下载

  • qiushibaike9.py (糗事百科头像)

  • qiushibiakexiangxi10.py 爬取糗事百科的详细信息

  • gushiwenwang2.py 古诗文网古诗抓取

  • selenium1 使用selenium模拟的百度浏览器搜索功能,向下滚动等

  • qiubai2 将爬取到的糗事百科的数据存储到mysql数据库

  • yanzhengma 全书网登录以及古诗网验证码登录

  • ScrapyProjects 利用scrapy模块爬取网页

About

利用Python库以及scrapy框架对数据进行爬取

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published