- 链家二手房数据爬取、清洗入库和数据分析
- 项目仅限于个人兴趣和学习用途,如有侵权请联系作者删除。
- python3.6
- mysql5.7(可以直接在项目目录下
docker-compose up -d
启动mysql)
-
model.py
:mysql
表ORM映射,包含以下三张表:sale_info
: 在售房源表,全量更新community_info
: 小区详情表,增量更新transaction_info
: 历史成交表,增量更新
-
spider.py
: 主要爬虫代码。由于链家只显示100页,按照搜索范围粗细,分为以下两种爬取方式:crawl_district_pool
: 按照地区进行爬取crawl_search_pool
: 按照商圈/小区搜索条件爬取
-
script.py
: 程序入口。执行顺序:- 爬取小区信息(推荐只首次爬取)
- 爬取在售详情(按照地区或商圈/小区,推荐每周更新)
- 爬取历史成交(按照地区或商圈/小区,推荐偶尔更新)
-
notebook
: 二手房分析监控示例,包括:- 在售房源分析
- 历史成交趋势
- 目标房源速览
- 觉得有用的小伙伴点个star
- 作者邮箱:xymu1988@163.com