通用爬虫系统 crawler_system

项目目录

src/           # 核心代码目录
---configs/         # 爬虫配置文件目录
---items/           # item特征字段定义
---loaders/         # itemloader 主要是特征字段清洗规则定义
    ---specials         # 具体网站特殊处理
---middlewares/     # 爬虫中间件定义
---misc/            # 其他(不适合放在其他目录的类或者功能法官法)
---pipelines/       # 用于item处理的pipeline
---requestfactorys/ # request对象制造工厂
---spider_yamls/    # spider 配置文件目录，对应各个网站
---spiders/         # 通用爬虫定义目录
   --- specials     # 特殊网站爬虫的定义，该目录下的爬虫不通用，很少见
---utils/           # 实用工具类或者方法
---settings.py      # 爬虫全局配置文件
---run_spider.py    # spider初始化和启动脚本
requirements.txt    # 软件所需要的依赖包
scrapy.cfg          # 该scrapy项目的全局配置文件

爬虫项目说明补充

src/run_spider.py 主要加载爬虫配置文件并启动爬虫实例进程
src/spiders/init.py 核心通用爬虫逻辑流程规范化，该类为该项目的重中之重
配置中加入了depth和category的概念,说明如下：
- depth, 层次或者深度，主要用来串起请求头部规则和链接提取规则，提取出来的链接通过src/requestfactorys/__init.py来 depth和category来找到请求头部的参数，从而构造Ｒequest实例对象，发起请求；
- category, 类别或者种类，一个网站可能多种特征提取方式，通过category来进行区分，串起 request结果回来时response应该调用相应category对应的特征提取方式
链接提取规则中的meta参数，可以自定义你需要的字段信息，随着request实例对象传到response对象上，其中：

check_before_request_flag表示在发起请求前，去redis键值集合进行进行查询，如果存在，则说明已经请求过，不需要再重复请求;反之，则发送网络请求.通过此机制，可以实现增量抓取;
next_page_flag 当前层的导航页提取链接时，存在下一页的情形，用于控制depth的变化.

特征提取方式支持：xpath,css,re,直接复制常量，取response属性等方式;
该项目可能还存在一些潜在的bug，还有一些网站情况可能没有处理到，欢迎扩展该项目中对应的类或者方法，从而能够处理更多的情况.

项目运行

本地开发和测试服务器测试时，配好src/configs/dev_env.py中的redis和kafka的信息，线上运行配置不用修改。

在自己开发的时候，可通过项目下的test.py文件手动传入爬虫配置文件名称，即可进行运行，通过打断点的方式，进行问题调试。
docker方式运行 ...

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
src		src
.flake8		.flake8
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

src

src

.flake8

.flake8

.gitignore

.gitignore

README.md

README.md

requirements.txt

requirements.txt

scrapy.cfg

scrapy.cfg

test.py

test.py

Repository files navigation

通用爬虫系统 crawler_system

项目目录

爬虫项目说明补充

项目运行

About

Releases

Packages

Languages

moolighty/crawler_yaml_system

Folders and files

Latest commit

History

Repository files navigation

通用爬虫系统 crawler_system

项目目录

爬虫项目说明补充

项目运行

About

Resources

Stars

Watchers

Forks

Languages