Beispiel #1
0
特征,应当优选选择。除方差法外,本文介绍的其他方法均
从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种:
1.Filter:过滤法
2.Wrapper:包装法
3.Embedded:嵌入法
"""
#1 Filter:过滤法
#1.1 方差选择法
'''计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。
'''
from sklearn.feature_selection import VarianceThreshold

vt = VarianceThreshold(threshold=3)
X_train_trans = vt.fit_trandform(X_train)

#1.2 卡方检验
'''检验特征对标签的相关性,选择其中K个与标签最相关的特征。
'''
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

select_k_best = SelectKBest(chi2, k=2)
#返回选择特征后的数据
data_trans = select_k_best.fit_trandform(X_train, y_train)

#2 Wrapper:包装法
#2.1 递归特征消除法
'''递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,
消除若干权值系数的特征,再基于新的特征集进行下一轮训练。