Skip to content

timbby/lianjia_spider

 
 

Repository files navigation

链家二手房爬虫

  • 链家二手房数据爬取、清洗入库和数据分析
  • 项目仅限于个人兴趣和学习用途,如有侵权请联系作者删除。

环境介绍

  • python3.6
  • mysql5.7(可以直接在项目目录下docker-compose up -d启动mysql)

项目介绍

  • model.py: mysql表ORM映射,包含以下三张表:

    • sale_info: 在售房源表,全量更新
    • community_info: 小区详情表,增量更新
    • transaction_info: 历史成交表,增量更新
  • spider.py: 主要爬虫代码。由于链家只显示100页,按照搜索范围粗细,分为以下两种爬取方式:

    • crawl_district_pool: 按照地区进行爬取
    • crawl_search_pool: 按照商圈/小区搜索条件爬取
  • script.py: 程序入口。执行顺序:

    • 爬取小区信息(推荐只首次爬取)
    • 爬取在售详情(按照地区或商圈/小区,推荐每周更新)
    • 爬取历史成交(按照地区或商圈/小区,推荐偶尔更新)
  • notebook: 二手房分析监控示例,包括:

    • 在售房源分析
    • 历史成交趋势
    • 目标房源速览

联系作者

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 99.6%
  • Python 0.4%