Skip to content

wangluzhou/WeMiner

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

WeMiner

DONE

  • 完成函数get_lastest_article部分功能,实现公众号的抓取,返回这个公众号的即时url

TODO

  • 加入代理池,来应对反爬虫机制
  • 设计flask前端页面
  • 从指定公众号的最新十篇文章中找到符合特定要求的文章

一些爬虫的开源项目

http://blog.csdn.net/baidu_21833433/article/details/70315081

代码分享和心得

每个人可以在git库里面新建自己的文件夹,分享自己的探索发现。

关于多人合作的git库注意事项

考虑到版本库的安全,大家在提交之前一定要先更新。即git pull

代码分享和心得

每个人可以在git库里面新建自己的文件夹,分享自己的探索发现。

WeMiner

项目思路:

微信公众号的文章包括万象,对于特定感兴趣、价值和信息密度高的公众号历史文章,进行系统梳理归档,将有助于提高获取信息的的质量和效率。 目前,对微信公众号历史文章的整理,多借助于各类云笔记,逐一单篇保存梳理,不仅耗时低效,且不便于后期维护。 因此,如何将既定的微信公众号的历史文章,批量保存整理后导出为常见的PDF、MOBI、EPUB等电子书格式,不仅可获得更更佳的阅读体验,更能方便后期检索、管理、维护。

市场需求调研

在公司内部做了一个简单的调研,对于投研行业来说,大量的市场交易日报以及券商或者基金的报告都发布在微信公众号中,每个投资经理都有一个自己的一个公众号观察名单,每天都是定时去查看翻阅,但是大家都很苦恼手机端糟糕的阅读体验,且搜索回溯功能较差,特别是一些交易日报的回溯。

项目功能:

  • 实现微信公众号的抓取功能,用户可以自己定制筛选公众号内容,系统帮助用户生成电子书
  • 每日定时抓取

输出形式:

  • 个人开源小工具:用于构建自己的本地公众号库

技术涉及点:

  • 微信爬虫
  • Flask开发
  • 前端开发

团队介绍:

团队名称:WeMiner 成员简介:

  • 王橹舟(大船-lukewang-上海)债券宏观分析师。
  • 蔡梦飞 (蔡梦飞-mydream378-上海)对编程感兴趣的神经科学博士生。
  • 吴翼遥 (无语-wuyu1001-武汉)自由职业
  • (大家自己补充,做个简单介绍)

项目计划:

  • 初步计划

    1. 实现微信指定公众号的最新文章更新爬取(搜狗搜索入口),此为MVP
    2. 整合单一公众号的历史文章遍历爬取(模拟器,代理等方式,还不明确,也许有更简便的办法)
    3. 将爬取到的内容转换成本地web电子书的形式。
  • 进阶计划

  1. 将其打包成一个可执行离线工具软件,可以一键生成本地web服务,用户通过本地浏览器和系统进行交互,选择需要的公众号进行转换
  2. 一键更新所有关注的公众号
  3. 电子书浏览形式优化:如搜索功能,背景色,另存为pdf等等。

项目挑战

  • 微信的反爬虫机制实在是666。。。。

Releases

No releases published

Packages

No packages published

Languages