首发于 AIGC开发者

数据挖掘中常见的特征工程方法

数据挖掘中常见的特征工程方法

谢邀，人在火星，刚下飞船。外星人太多，匿了。

定义

这几天在做一个数据挖掘相关的东西，炼丹练久了，突然发现对特征工程这一块还存在比较大的空白。于是查阅了一些资料，权当记录阅读笔记。

特征工程在数据挖掘应用中直接影响模型最终的性能；尤其在很多计算机视觉任务中，特征提取的重要性甚至超过了分类器本身（比如CNN提取的feature是比很多hand-crafted features更具备表示能力的）。良好的特征（feature）应该与标签（label）高度相关，并且与其他特征不相关。

特征工程（feature engineering）包括特征提取和特征选择两个方面。

特征提取广义上指的是一种变换, 将处于高维空间的样本通过映射或变换的方式转换到低维空间, 达到降维的目的；

特征选择指从一组特征中去除冗余或不相关的特征来降维。

这里暂时只介绍特征选择部分！如有错误，欢迎指正！

主要思路

特征获取需要解决两个问题，

一是确定选择算法，在允许的时间内，以可以忍受的代价找出最小的、最能描述类别的特征组合；

二是确定评价标准, 衡量特征组合是否最优,得到特征获取操作的停止条件。因此, 一般分两步进行特征获取，先产生特征子集，然后对子集进行评价，如果满足停止条件，则操作完毕，否则重复前述两步直到条件满足为止。

按照特征评价标准分类：

Search

Evaluation

Filters：不依赖于学习算法，对独立特征或特征子空间进行评估；

Mutual Information(MI)：度量每个特征与标签的MI值，选取其中Top N个的特征。

I(A,B)=\sum_{i}{\sum_{j}{Pr(a_i, b_j)log\frac{Pr(a_i, b_j)}{Pr(a_i)*Pr( b_j)}}}

Chi-Square：被用于测试两个相互独立的事件A，B的偏差程度。

T=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_s^2}{n_2}}}

Reference

[1]王娟,慈林林,姚康泽.特征选择方法综述[J].计算机工程与科学,2005(12):72-75.

[2]Amr T. Survey on Feature Selection[J]. Computer Science, 2013.

[3]李敏,卡米力·木依丁.特征选择方法与算法的研究[J].计算机技术与发展,2013,23(12):16-21.

编辑于 2018-01-19 19:19

文章被以下专栏收录

AIGC开发者

微信公众号：AIGC开发者，欢迎投稿

代做工资流水公司遵义工资银行流水样本商丘代做银行流水单南通打印签证银行流水襄阳个人工资流水开具合肥收入证明查询开封打企业贷流水襄阳自存银行流水价格银川做背调工资流水南宁车贷流水代开泉州薪资流水代开济宁工作收入证明代办南宁查询入职银行流水孝感查询工资银行流水信阳流水单公司咸阳薪资银行流水开具舟山办理工作收入证明岳阳企业流水打印样本绍兴车贷工资流水打印温州打印企业对私流水济南查对公流水开封代办背调流水遵义工资流水代办江门贷款工资流水代开唐山签证银行流水制作泰州做企业对公流水绍兴制作薪资流水海口贷款工资流水价格蚌埠银行流水公司许昌代开公司流水临沂查车贷工资流水香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户 315晚会后胖东来又人满为患了高校汽车撞人致3死16伤司机系学生张家界的山上“长”满了韩国人？张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲 “重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后原水城县长再被查凯特王妃现身！外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人多人受伤

代做工资流水公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化