Spam_SMS_Classify

一个中文文本分类项目 (NLP)

数据集

来源：https://github.com/hrwhisper/SpamMessage/tree/master/data/ 带标签数据集.txt

注：不确定这边来源的数据集是否是原创

说明：本项目选取了该数据集中的五万条数据作为训练/测试集dataset.csv，用python略作处理并转存了格式，未选取其中的异常样本（即含有希腊字母、日文等非常规字符的样本或由纯数字字母以及标点符号组成的样本）。

其中spam = 5041, ham = 44959，比例大约为1 : 9。

停用词表

本项目所使用的停用词表仅包含7个单字词，stop_words = ['有', '和', '是', '在', '我', '了', '的']。在对样本的文本进行分词后，观察分得词语的词频，所得的词语和相应的词频输出到了dict.csv文件，在其中提取出最高频的几个，并且对体现文本特征基本没有效果的单字词作为停用词表。在应用了停用词表后，对短信分类的准确率有了一定程度的提升。

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
Login.py		Login.py
MainPage.py		MainPage.py
NBTest.py		NBTest.py
NaiveBayes.py		NaiveBayes.py
README.md		README.md
SVMTest.py		SVMTest.py
SignUp.py		SignUp.py
TextProcess.py		TextProcess.py
UIMain.py		UIMain.py
dataset.csv		dataset.csv
dict.csv		dict.csv
log.txt		log.txt
modeldict.json		modeldict.json
words.csv		words.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Login.py

Login.py

MainPage.py

MainPage.py

NBTest.py

NBTest.py

NaiveBayes.py

NaiveBayes.py

README.md

README.md

SVMTest.py

SVMTest.py

SignUp.py

SignUp.py

TextProcess.py

TextProcess.py

UIMain.py

UIMain.py

dataset.csv

dataset.csv

dict.csv

dict.csv

log.txt

log.txt

modeldict.json

modeldict.json

words.csv

words.csv

Repository files navigation

Spam_SMS_Classify

数据集

停用词表

About

Releases

Packages

Languages

chenhangjun/Spam_SMS_Classify

Folders and files

Latest commit

History

Repository files navigation

Spam_SMS_Classify

数据集

停用词表

About

Resources

Stars

Watchers

Forks

Languages