Skip to content

andluo90/spider_tianya

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 

Repository files navigation

爬取天涯主贴和楼主评论最终生成一个word文档 需要传递的参数:天涯贴子的第一页 步骤: 1.获取楼主的信息以及这个贴子有多少页 2.把贴子的所有页面下载到本地项目下的html文件夹中 3.获取主贴内容以及楼主评论的内容保存到本地txt文件夹中 4.去掉贴子内容中的标签 5.一行行写到word文档里面,当遇到有图片链接时,自动下载此图片并加 到word中

PS:基本功能可以用了,但还需要再进行优化

有什么问题欢迎一起交流交流 1455234749@qq.com

About

爬取天涯主贴和楼主评论最终生成一个word文档

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages