GitHub - allhu/scrapy_in_practice: crawl examples by Scrapy framework

使用Scrapy框架爬取网页的一些示例，给大家一个参考，也给自己做个备忘。

关于搭建Scrapy爬虫开发环境，请参考文章搭建Scrapy爬虫的开发环境.

目前仅包含两个爬虫：fish_saying spider和xiaochuncnjp spider。

fish_saying spider

爬取一个需要登录才能看到数据的页面;
使用FormRequest和FormRequest.from_response模拟登录过程;
使用XPath分析页面结构；

xiaochuncnjp spider

爬取一个论坛，论坛的大图需要登录才能查看图片；
使用XPath分析页面结构；
使用MySQL存储数据；
使用七牛存储图片；

运行爬虫

GuoDaniel:python nkcoder$ cd scrapy_in_practice/
GuoDaniel:scrapy_in_practice nkcoder$ cd scrapy_start/
GuoDaniel:scrapy_start nkcoder$ ls
scrapy.cfg	scrapy_start
GuoDaniel:scrapy_start nkcoder$ source ../scrapy_env/bin/activate
(scrapy_env) GuoDaniel:scrapy_start nkcoder$ scrapy list
fish_saying
xiaochuncnjp
(scrapy_env) GuoDaniel:scrapy_start nkcoder$ scrapy crawl fish_saying

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
scrapy_start		scrapy_start
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

scrapy_start

scrapy_start

.gitignore

.gitignore

README.md

README.md

Repository files navigation

fish_saying spider

xiaochuncnjp spider

运行爬虫

About

Releases

Packages

Languages

allhu/scrapy_in_practice

Folders and files

Latest commit

History

Repository files navigation

fish_saying spider

xiaochuncnjp spider

运行爬虫

About

Resources

Stars

Watchers

Forks

Languages