Skip to content

chenhangjun/Spam_SMS_Classify

Repository files navigation

Spam_SMS_Classify

一个中文文本分类项目 (NLP)

数据集


来源:https://github.com/hrwhisper/SpamMessage/tree/master/data/ 带标签数据集.txt

​ 注:不确定这边来源的数据集是否是原创

说明:本项目选取了该数据集中的五万条数据作为训练/测试集dataset.csv,用python略作处理并转存了格式,未 选取其中的异常样本(即含有希腊字母、日文等非常规字符的样本或由纯数字字母以及标点符号组成的样本)。

​ 其中spam = 5041, ham = 44959,比例大约为1 : 9。

停用词表


​ 本项目所使用的停用词表仅包含7个单字词,stop_words = ['有', '和', '是', '在', '我', '了', '的']。在对样本的文本进行分词后,观察分得词语的词频,所得的词语和相应的词频输出到了dict.csv文件,在其中提取出最高频的几个,并且对体现文本特征基本没有效果的单字词作为停用词表。在应用了停用词表后,对短信分类的准确率有了一定程度的提升。

About

一个中文文本分类项目(NLP)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages