##微信朋友圈LDA主题建模发现最常讨论的主题##
- 朋友圈数据获取程序,导出微信朋友圈部分字段数据(移除用户名、评论和点赞好友),执行
mongoexport -d wechatDB -c wechatcollection --type=csv -f content,reason_artile,artile_title -o wechat.csv
- 执行:
python Wechat_LDA.py wechat.csv
- 使用Tagul做词云可视化点我 将上一步程序运行生成的文件top_words.txt导入Tagul中即可。需要注意的是使用Tagul制作中文词云,Fonts选项必须设置为Noto Sans S Chinese Regular。
附:stop_words.txt是我整理的停用词文件,可根据需求再添加新的停用词。同时,这里也附上主题特征词文件top_words.txt