Skip to content

yehaibuaa/nlp_util

 
 

Repository files navigation

nlp_util

###NLP常用工具

summary:

  1. 预处理类工具:分词
  2. 深度学习:
    • cnn:
      • wordEmbedding_cnn_model: CNN(词向量模型),比如: CNN(w2v)、CNN(rand)
      • onehot_cnn_model: CNN(onehot-seq)
      • onehot_cnn_model: CNN(onehot-seq)
  3. 传统分类器:
    • random forest
  4. 其他机器学习资源大全

环境:

工具列表

commom: 通用类

  • base/common_model_class:分类器等模型的父类,规范分类器的函数等

data_processing_util: 数据预处理类工具

  • jiebanlp:

    • describe: jieba分词
    • 依赖包: jieba 0.38,OpenCC 0.2
    • 项目结构:
      • stopword.txt: 中文停止词表.
      • userdict.txt: 用户自定义字典
      • jieba_util.py: jieba分词工具类,自封装了一层,即包装成一个 Jieba_Util类,这个类主要在原 jieba 分词的基础上对扩展:
        • 增加用户字典
        • 是否转为小写
        • 是否移除stopwords,
        • 是否统一替换数字
        • 是否繁体转简体
  • word2vec_util

    • word2vec模型的训练等
    • 依赖包:gensim 0.13.1,jieba 0.38
  • feature_encoder

    • 特征编码包,比如onehot编码,bow编码,tfidf编码等
    • 依赖包:gensim 0.13.1,jieba 0.38,scikit-learn 0.17.1
    • 项目结构:
      • onehot_feature_encoder.py:特征编码类,将原始输入的句子转换为补齐的字典索引的形式,使用0补长.
      • bow_feature_encoder.py:

deep_learning: 深度学习类工具

  • [cnn/wordEmbedding_cnn:]

  • [cnn/dynamic_cnn:]

    • describe:动态 k-max poooling 操作。

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%