这里部署工程级别的项目
关键词:
每次测试的结果将写入result.csv
至少包含 [sent, target] data.csv
python preprocess.py
生成[sent,sent_chars,sent_words,target]
data_train.csv data_test.csv
python FilterRules.py
(这将会增加一列['isFilter']
,默认为None
若被过滤则显示违反的规则,如_islen
)
- 使用探索模式(评估过滤器效果),则在
__main__
中将filtering
函数注释,并去掉exploring
的注释 - 如需更改过滤器的规则,则更改
toFilter
函数
python FilterRules.py -task exploring
探索模式将会评估当前规则的准确率
python LangModelMgr.py
python LangModelMgr.py -n 2 -dtype words -dsource std -dname weibo
python FeatureEngr.py
data_train_feat.csv data_test_feat.csv
python Visualization.py
生成关于特征和标签之间的 皮尔森相关系数热力图
python Visualization.py -plot len l3_neg_ppl
python FeatureEngr.py -del len
python DiscriminantModel.py
/Model
*.model
文件
python ToVectorMgr.py
data_train_chars_d2v.vec data_test__chars_d2v.vec
- 这里默认使用文档级的 Doc2Vec
- 文档级别的Word2Vec (尚未实现)
- 词表级别的WordList2Vec (尚未实现)
python GenerativeModel.py
- 默认使用SVM模型,可选LR或MLP
python DeepNet.py
- 默认使用fasttext
python DeepNet.py -net textcnn
python Ensenmble.py