Esempio n. 1
0
 #加载词汇列表
 obj1.loadVocabList()
 '''
 预处理邮件数据
 1) 将邮件中所有的单词统一小写处理
 2)将所有的数字统一变为 ‘number’
 3)将所有的邮件统一变为‘emailaddr’
 4)将所有的$统一变为 ‘dollar’
 5)将所有的url统一变为‘httpaddr’
 6) 将html标签都去掉
 7)将所有非字母数字以及下划线_的符号都去掉,将tab 多个空格 等都变成一个space
  '''
 obj1.proMailData()
 #波特词干提取
 obj1.porterStemmer()
 obj1.getWordIndices()
 print obj1.wordIndices
 #print obj1.wordIndices
 #print len(obj1.wordIndices)
 #print len(set(obj1.wordIndices))
 obj1.getFeatures()
 #print obj1.mailFeatures.T
 print shape(obj1.mailFeatures.T)
 svmObj = SVM("data/svm/spamTrain.mat", "data/svm/spamTest.mat", obj1.mailFeatures.T)
 svmObj.processData()
 c = 100
 t = 0
 svmObj.trainModel(c, t)
 t = 2
 svmObj.trainModel(c, t)
 print "耗费的时间为:", time.time() - time_ben
Esempio n. 2
0
 obj1.loadVocabList()
 '''
 预处理邮件数据
 1) 将邮件中所有的单词统一小写处理
 2)将所有的数字统一变为 ‘number’
 3)将所有的邮件统一变为‘emailaddr’
 4)将所有的$统一变为 ‘dollar’
 5)将所有的url统一变为‘httpaddr’
 6) 将html标签都去掉
 7)将所有非字母数字以及下划线_的符号都去掉,将tab 多个空格 等都变成一个space
  '''
 obj1.proMailData()
 #波特词干提取
 obj1.porterStemmer()
 obj1.getWordIndices()
 print obj1.wordIndices
 #print obj1.wordIndices
 #print len(obj1.wordIndices)
 #print len(set(obj1.wordIndices))
 obj1.getFeatures()
 #print obj1.mailFeatures.T
 print shape(obj1.mailFeatures.T)
 svmObj = SVM("data/svm/spamTrain.mat", "data/svm/spamTest.mat",
              obj1.mailFeatures.T)
 svmObj.processData()
 c = 100
 t = 0
 svmObj.trainModel(c, t)
 t = 2
 svmObj.trainModel(c, t)
 print "耗费的时间为:", time.time() - time_ben