Skip to content

wangpeijian/douban_book

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

豆瓣图书爬虫

项目

python爬虫拉取豆瓣图书内容 python版本python3

功能

  1. 以豆瓣图书热门标签为入口爬取豆瓣图书介绍,以标签为查询条件
  2. 根据标签相关的标签,图书相关的标签扩展标签范围
  3. 为防止豆瓣反爬屏蔽,使用西刺代理
  4. 爬取西刺代理的代理ip列表,爬取代理时也使用代理地址
  5. 项目配置信息在src.config.system
  6. 初始化数据库脚本在sql目录中

启动项目

项目根目录执行

    python src

About

python爬虫拉取豆瓣图书内容 + 手撸线程池

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages