Skip to content

某东的产品用户资讯问答消息的抓取

Notifications You must be signed in to change notification settings

dream1986/jd_spider

Repository files navigation

jd_spider

用来爬虫抓取某东的产品用户资讯和回答的程序。

在目录下使用python run.py即可

依赖于sqlite3和BeautifulSoup,以及urllib2

20150517 使用改写成python3的格式,原先的程序打包成了jd_spider(27).7z (1)数据保存到$HOME目录 (2)产品结果分目录整理

20150611 将评论部分拆除出来。可以在本地服务端运行,然后将结果传递到远程 控制服务器中去。基本功能已经实现。 但是服务器端还没有使用多线程,所以没有什么并发性,后续要改进 京东的评论页面最近有更改,导致完成爬下评论的概率很低了。。。 需要使用paramiko和scp模块。

About

某东的产品用户资讯问答消息的抓取

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages