特征,应当优选选择。除方差法外,本文介绍的其他方法均 从相关性考虑。 根据特征选择的形式又可以将特征选择方法分为3种: 1.Filter:过滤法 2.Wrapper:包装法 3.Embedded:嵌入法 """ #1 Filter:过滤法 #1.1 方差选择法 '''计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。 ''' from sklearn.feature_selection import VarianceThreshold vt = VarianceThreshold(threshold=3) X_train_trans = vt.fit_trandform(X_train) #1.2 卡方检验 '''检验特征对标签的相关性,选择其中K个与标签最相关的特征。 ''' from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 select_k_best = SelectKBest(chi2, k=2) #返回选择特征后的数据 data_trans = select_k_best.fit_trandform(X_train, y_train) #2 Wrapper:包装法 #2.1 递归特征消除法 '''递归消除特征法使用一个基模型来进行多轮训练,每轮训练后, 消除若干权值系数的特征,再基于新的特征集进行下一轮训练。