Skip to content

[DEPRECATED] 将新浪博客的所有文章爬取下来,制作成EPub格式的电子书(同时生成html格式文件)

License

Notifications You must be signed in to change notification settings

eebook/SinaBlog2e-book

Repository files navigation

SinaBlog2e-book

简介


将新浪博客的所有文章爬取下来,制作成Epub格式的电子书(同时生成html格式文件)

例如,爬取韩寒的新浪博客的所有文章:
hanhanepub

依赖


解决依赖:

$ sudo pip install -r requirements.txt

开发环境


Mac 10.11
Python 2.7.11
BeautifulSoup 4
PyCharm CE 5.0.3
目前完成度不高,bug还比较多,Win,Linux平台下还没有测试过,有可能存在问题。

使用说明


  1. 将博客地址放入项目文件夹目录的ReadList.txt中,例如:
    readlist 需要说明的一点是:目前只支持ID形式的博客地址,例如http://blog.sina.com.cn/u/1191258123。新浪微博支持多种形式的地址,如:http://blog.sina.com.cn/1191258123, http://blog.sina.com.cn/twocold, 以及http://blog.sina.com.cn/u/1191258123. 目前只支持一种,后面会改进。

  2. 执行:

$ python SinaBlog2e-book.py

稍等片刻,html和Epub格式的电子书会生成在「生成的电子书」文件夹中。

项目说明


该项目只是ZhihuHelp的新浪博客版本,目前大量用到ZhihuHelp项目的代码,再次表示感谢。也请大家多多支持该项目作者姚泽源同学。

参与

TODO list


本着「过早优化是万恶之源」的原则(好吧,就是代码写得烂),目前这个项目还算能用,但是问题也比较多,写个TODO list:

  1. 支持多种形式的新浪博客地址
  2. 效率问题,程序还需要优化(爬韩寒博客,一共316篇博文,用了36分钟)
  3. 页面的样式还需要改进(如:封面,简介,标题,博主logo等)
  4. 博文评论的数量
  5. 博文更新时间
  6. 图形界面
  7. 程序接口
  8. 分卷制作电子书, 多个博主的文章放在同一本书中
  9. ....

License


MIT

About

[DEPRECATED] 将新浪博客的所有文章爬取下来,制作成EPub格式的电子书(同时生成html格式文件)

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published