Skip to content

butlerwilson/learn4sklearn

Repository files navigation

about this project

预处理

  1. 标准化(0均值,单位方差)

  2. 0-1缩放(将数值特征缩放到【0,1】) V=(X - min)/(max - min) 针对每一个样本处理(行)

  3. 绝对值缩放(将数值特征缩放到[-1, 1]) V=V\max 针对每一个特征处理(列)

  4. 正则化

  5. 二值化 按照阀值,大于等于该值则为1,否则为0

  6. one hot方式 将所有特征展开成一行,存在则为1,否则为0

  7. 缺失值处理 如果特征缺失,按照规定替换缺失值(平均数,中位数,重数(可以非数值类型))

note: 需要对训练集,测试集和预测集都采用相同的预处理。

特征提取

特征提取和特征选择不同,前者主要将任意的数据(文本,图像)转化为机器学习能够使用的数值的过程; 而后者主要是说在这些特征之上使用的机器学习技术方案。

如果是文本处理技术中,通俗的讲就是文本向量化。

Releases

No releases published

Packages

No packages published

Languages