如何进行特征选择？-千锋教育

如何进行特征选择？

发布时间:2022-09-13 17:41:55

发布人:wjy

　　特征选择是一个重要的数据预处理过程，主要有两个原因：

　　一是减少特征数量、降维，使模型泛化能力更强，减少过拟合;

　　二是增强对特征和特征值之间的理解

　　常见的特征选择方式：

　　1. 去除方差较小的特征

　　2. 正则化。L1正则化能够生成稀疏的模型。L2正则化的表现更加稳定，由于有用的特征往往对应系数非零。

　　3. 随机森林，对于分类问题，通常采用基尼不纯度或者信息增益，对于回归问题，通常采用的是方差或者最小二乘拟合。一般不需要feature engineering、调参等繁琐的步骤。它的两个主要问题，1是重要的特征有可能得分很低(关联特征问题)，2是这种方法对特征变量类别多的特征越有利(偏向问题)。

　　4. 稳定性选择。是一种基于二次抽样和选择算法相结合较新的方法，选择算法可以是回归、SVM或其他类似的方法。它的主要思想是在不同的数据子集和特征子集上运行特征选择算法，不断的重复，最终汇总特征选择结果，比如可以统计某个特征被认为是重要特征的频率(被选为重要特征的次数除以它所在的子集被测试的次数)。理想情况下，重要特征的得分会接近100%。稍微弱一点的特征得分会是非0的数，而最无用的特征得分将会接近于0。

上一篇随机森林如何处理缺失值？

下一篇什么是偏差与方差？