Email-spam-classification

This is a classification of text documents. There are two data sets for classification

Email-spam
Eight newsgroup dataset

Two major files

NaiveBayes.py
categoryClassification.py

Input files: test_email.txt, train_email.txt (for Naive Bayse) 8category.training.txt, 8category.testing.txt (for categoryClassification)

Output: (For Naive Bayse) 254 97.6923076923 Confusion Matrix This is a 2x2 matrix whose entry in row r and column c is the percentage of test images from class r that are classified as class c.

0.961538461538 0.0384615384615 0.00769230769231 0.992307692308

Top20 Spam words --email s order report our address mail program send ...

Top20 Not spam words anguage university s linguisti de information ...

Top 20 Odds ratio (For each pixel feature Fij and pair of classes c1, c2, the odds ratio is defined as odds(Fij=1, c1, c2) = P(Fij=1 | c1) / P(Fij=1 | c2).

language : 1.35372052523 university : 1.29425942509 de : 1.22384116895 conference : 1.20620230213 english : 1.18226805072 edu : 1.1640902452 papers : 1.16218442133 speech

etc..

The output is same for 8category as well.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
8category.testing.txt		8category.testing.txt
8category.training.txt		8category.training.txt
NaiveBayes		NaiveBayes
NaiveBayes.py		NaiveBayes.py
README.md		README.md
baseball_output.txt		baseball_output.txt
baseball_tagcloud.png		baseball_tagcloud.png
categoryClassification.py		categoryClassification.py
cloud_large.png		cloud_large.png
email_notspam_tagcloud.png		email_notspam_tagcloud.png
email_notspam_tagcloud_400.png		email_notspam_tagcloud_400.png
email_spam_tagcloud.png		email_spam_tagcloud.png
email_spam_tagcloud_400.png		email_spam_tagcloud_400.png
forsale_output.txt		forsale_output.txt
forsale_tagcloud.png		forsale_tagcloud.png
graphics_output.txt		graphics_output.txt
graphics_tagcloud.png		graphics_tagcloud.png
hardware_output.txt		hardware_output.txt
hardware_tagcloud.png		hardware_tagcloud.png
hockey_output.txt		hockey_output.txt
hockey_tagcloud.png		hockey_tagcloud.png
notspam_output.txt		notspam_output.txt
politics_output.txt		politics_output.txt
politics_tagcloud.png		politics_tagcloud.png
sample.txt		sample.txt
space_output.txt		space_output.txt
space_tagcloud.png		space_tagcloud.png
spam_output.txt		spam_output.txt
tag_cloud.py		tag_cloud.py
tag_cloud_8CLS.py		tag_cloud_8CLS.py
test_email.txt		test_email.txt
train_email.txt		train_email.txt
windows_output.txt		windows_output.txt
windows_tagcloud.png		windows_tagcloud.png

tspanindra/Email-spam-classification

Folders and files

Latest commit

History

Repository files navigation

Email-spam-classification

About

Resources

Stars

Watchers

Forks

Languages