特征选择(Feature selection)方法汇总
一、简介
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。大家都知道,“特征决定了模型的上限,模型只是逼近这个上限”。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善和解释模型、算法都有着重要的作用。除此之外,从高维特征中选择最有效的少数特征,还有助于解决模型过拟合问题,提高模型的泛化能力。
二、方法汇总
根据特征选择的形式,一般将特征选择的方法分为三大类:
- Filter(过滤法):将每个特征变量与目标变量进行度量评分,按照得分高低来选择与目标变量最相关的少数特征。
- Embedded(嵌入法):使用机器学习算法模型在数据集上进行训练,从而得到各个特征的重要性得分,根据系得分高低选择少数特征(类似于Filter法,只不过系数是通过模型训练过程中学习得来的)。
- Wrapper(包装法):,每次增加(或删除)若干特征,建立算法模型,根据最后的评价函数得分,进行特征选择。
三、Python实战
实战链接:
如果本文对您有帮助,请点赞和收藏!关注博主,继续为大家带来前沿AI算法知识!