GitHub - mybabyon/spider-taotu: 抓取一些非常棒棒的妹子套图

高质量套图爬虫

大致说一下流程，爬虫先获得一个栏目网址，随后通过层层解析，得到每一个图集的的名称、标签、和所有图片的地址并存到sqlite3数据库中，文件下载时默认命名为图片链接的md5值。

抓取和下载的过程均为多线程，可以通过调整延时来调整速度。

附：

1. 13MB的套图信息数据库

2. 简单的多线程现在图片演示程序

0.照片展示

这里图片下载略乱，但是可以通过简单的修改下载程序，将一套图下载在一个文件夹内。

1.字段展示

2.测试展示

3.爬取过程展示

4.下载过程展示

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.gitignore		.gitignore
README.md		README.md
spider_main.py		spider_main.py
spider_sql.py		spider_sql.py
spider_tools.py		spider_tools.py
spider_tt8.db		spider_tt8.db
sql_down.py		sql_down.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

README.md

README.md

spider_main.py

spider_main.py

spider_sql.py

spider_sql.py

spider_tools.py

spider_tools.py

spider_tt8.db

spider_tt8.db

sql_down.py

sql_down.py

Repository files navigation

高质量套图爬虫

大致说一下流程，爬虫先获得一个栏目网址，随后通过层层解析，得到每一个图集的的名称、标签、和所有图片的地址并存到sqlite3数据库中，文件下载时默认命名为图片链接的md5值。

抓取和下载的过程均为多线程，可以通过调整延时来调整速度。

附：

1. 13MB的套图信息数据库

2. 简单的多线程现在图片演示程序

0.照片展示

这里图片下载略乱，但是可以通过简单的修改下载程序，将一套图下载在一个文件夹内。

1.字段展示

2.测试展示

3.爬取过程展示

4.下载过程展示

About

Releases

Packages

Languages

mybabyon/spider-taotu

Folders and files

Latest commit

History

Repository files navigation

高质量套图爬虫

大致说一下流程，爬虫先获得一个栏目网址，随后通过层层解析，得到每一个图集的的名称 、标签、和所有图片的地址并存到sqlite3数据库中，文件下载时默认命名为 图片链接的md5值。

抓取和下载的过程均为多线程，可以通过调整延时来调整速度。

附：

1. 13MB的套图信息数据库

2. 简单的多线程现在图片演示程序

0.照片展示

这里图片下载略乱，但是可以通过简单的修改下载程序，将一套图下载在一个文件夹内。

1.字段展示

2.测试展示

3.爬取过程展示

4.下载过程展示

About

Resources

Stars

Watchers

Forks

Languages

大致说一下流程，爬虫先获得一个栏目网址，随后通过层层解析，得到每一个图集的的名称、标签、和所有图片的地址并存到sqlite3数据库中，文件下载时默认命名为图片链接的md5值。