首发于小石头的码疯窝

【博客存档】机器学习模型评估

想飞的石头

带着团队在agi大潮里做挖掘机的

前言

当数据好了之后，你所需的只是调下开源包，然后一个模型就出来了，但是，好与不好？谁来界定？

这篇文章，主要针对模型的评估，系统介绍下各种不同的模型的各种评测标准，主要参考Alice Zhang的这篇文章 http://www.oreilly.com/data/free/evaluating-machine-learning-models.csp。

1-基础理解

Figure1-1是一个比较合理的产生机器学习模型的workflow，首先，我们拿到Historical data 然后应用到我们选择的model，然后对数据进行离线评测，离线评测一般我们会从Historical data中，通过一些策略选择出一些数据作为Validation，用来离线评测我们的模型，进行model selection和model params selection；也会引入一些live data来离线评价模型，待选择出合理的model和对应的params后，会对线上数据来一些相关的线上测试，例如本人所在公司会按流量对新旧model来进行A/B testing，利用最终的kpi指标来作为model的评判标准

2-模型评估标准

ML中，有多重不同考量的model，不同的目标有不同的评估标准，本节主要介绍Classification Metrics、Regression Metrics、Ranking Metrics

2.1-Classification Metrics

Accuracy

分类Accuracy就是指在分类方法中，被正确分类的样本数据占所有样本数量的比例。

Confusion Matrix

Accuracy的计算十分简便，但是类别之间是等价的，很多时候，由于判断为某类的代价不一致，我们不能简单地利用Accuracy来说明某个分类器的好坏。比如一个医生将患病病人评价为没有患病的情况比将未患病用户判定为患病用户的代价要大得多，后者可以通过其他检测来继续验证，而前者则很难；另外当本身训练数据中各样本数量分布极度不均衡的时候，比如#0/#1=9:1，即使是一个分类器将所有样本全部判断为0时，这个分类的accuracy也达到了90%，很显然这里是有问题的。

假定某样本有100个正样本与200个负样本，confusion table如下：

从这张图表中，我们可以很明显的看出在正分类中，我们的分类器有较低的准确率：(80/(20+80)=80%)，负分类中准确率为(195/(195+5)=97.5%)，如果仅仅考虑全局的accuracy，(80+195)/(100+200)=91.7%，丢失了很多信息。

Per-Class Accuracy

在上面例子中，对每类的accuracy做一个平均：(80%+97.5%)/2=88.75%，和之前的准确率相差较大，尤其是在分布极度不均的正负样本数量时，9+1-判断为10+,accuracy为90%，(100%+0)/2=50%

Log-Loss

在Logisitic Regression分类器中，最终的分类是指定阈值，然后对predict的值来进行判断进行分类，假定指定阈值0.5，model计算得到属于class 1的概率为0.51，这里有一个错误，但是这里有余概率与分类阈值相差很少，Log-Loss就是一个将此类因素考虑的标准：

pi是属于ith class的概率，yi是第ith的真实label，如果数据功底较强的人可能一眼就可以看出，这里其实就是y和p分布的Cross-Entropy，即真实label与预测的y的分布之间的差异。最小化Log-Loss即为最大化分类器的性能。

AUC

AUC即Area Under the Curve，这里的Curve就是ROC曲线，ROC的横坐标为Flase positive rate，纵坐标为Ture Positive Rate，用分类器的FP和TP来衡量分类器的性能好坏。而这里ROC是一个曲线而非一个值，AUC就是将该ROC用一个数值表示，这个数值就是曲线之下的面积。

2.2-Ranking Metrics

Ranking Metrics和前面的分类的merics，有很多相似的地方，例如，用户给定一个query，然后搜索引擎会反馈一个item list，这个item list会按照与用户query的相关性来进行排序，其本质就是一个0/1的二元分类器，其中score是分类为1的概率，以此为标准来进行相关性的判定。当然Ranking Metrics很多时候也使用Regression的Metrics，例如在个性化推荐系统中，会通过各种数据的feature来进行一个score的计算，并以此为标准对推荐结果进行排序。

这里，我们首先介绍下Precision-Recall，也就是在分类中经常使用的来作为Ranking Metrics

Precision Recall

通常，我们在ranking中只对top K来进行计算，就是所谓的precision@k,recall@k，precision和recall之间的关系有点类似于True Postive 和False Postive之间的关系，单独谈其中一样是没有意义的，通常我们使用F1 score来表明其好坏：

NDCG

NDCG是另一种很有效地排序标准，这里不对其做详细概念说明，只举一个例子就明白了，如想详细了解，请阅读 https://en.wikipedia.org/wiki/Discounted_cumulative_gain

假定某一个排序方法，给出的结果为D1,D2,D3,D4,D5,D6,而用户的相关得分（比如通过用户对其点击率来计算）为3,2,3,0,1,2。

则这个搜索的累积的熵为：

明显可知，CG对排序间item的相对位置不敏感，改变item彼此间的位置不影响CG的值，这是不合理的，这里我们添加一个Discounted信息：

这个ranking的DCG计算如下：

同理，我们做一个最佳的排序的计算，这里最佳的排序是按照用户相关得分的排序：

此时，最佳的DCG = 8.69

最终的Normalize DCG=8.10/8.69=0.932

2.3-Regression Metrics

在回归任务中，我们一般需要去预测数值型的得分，例如我们会预测未来一段时间股票的价格，另外个性化系统预测用户对某个item的得分，类似的这些任务我们都会用到回归方法。

RMSE

在回归任务中，最普通的评估标准是RMSE（root-mean-square error)：

Quantiles of Errors

RMSE有个比较严重的问题，它对large outliers比较敏感，通常一个比较大的离群值会很大地影响最终的RMSE值。Quantiles在某一方面来说，相对于RMSE来说鲁棒性比较高。

Median Absolute Percentage一般能够有效地减少离群值的影响：

当然，我们也可以使用第>90%的数据来找到数据当中的worst case，或者用<0.1来表示数据当中的best case。

2.4-Cautions

Training Metrics 和Evaluation Metrics的差异

很多时候，Evaluation Metrics 和Training Metrics可以通用，我们可以直接选定Evaluation Metrics为目标函数来对其优化，例如RMSE，但是也有很多Evaluation Metrics 不能直接作为目标函数来优化。

Skewed Datasets：Imbalanced classes，outliers， and Rare Data

如果在datasets中，正负样本数相差很大，比如99/1，这样我们的分类器很容易全1，来达到accuracy达到99%，ROC也很好看，但此时其实算法的泛化能力很差，应该是无效的。

3-线下评估机制

一般，我们将历史数据按某种策略分为训练数据和验证数据，以此我们做Model Training，根据相关评估标准来做Model Selection，选定好model方法之后，利用Validation data去做Hyperparameter tuner，选择出在验证集数据中性能最好的Hyperparameter sets。

很多时候，获取一个有效地历史训练数据集代价很大，我们通常只能获取到相对于真实数据很小的一部分数据，为了保证model的泛化能力，我们通常会采用很多其他的方法来充分验证，例如Hold-Out Validation,Cross-Validation,Bootstrap and Jackknife，这三种基本思想都相同，其中Hold-Out实现最简单，只是简单地将整个训练集分为训练集和验证集，然后用验证集的数据对训练集生成的model验证model有效性，Cross-Validation是将整个训练数据集划分为k-fold，多次取其中某一个fold做验证数据集，相对于Hold-Out Validation来说，相当于多次操作；前面两种可能大部分人都听说过，而Bootstrap很少有人了解，相对于Cross-Validation,其实质我们可以理解为，每次取K-fold里面的某部分做验证集，这其实是一种不放回的采样，而Bootstrap则恰好相反，它实质是一种由放回的采样原理：每次取其中某些数据做验证数据，然后放回重新选取，为什么要选择放回呢？统计学家们认为训练数据本身就有一种潜在的分布信息，我们称为”经验分布”，每次随机选取，然后不放回能够保证每次的经验分布都为原始的训练数据本身的分布信息，那么如此一来，bootstrap set中有很多数据是重复的（即为我们的经验分布），有个文档 https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf http://www.americanscientist.org/issues/pub/2010/3/the-bootstrap/1里面有详细的说明。如果想试试具体效果，可以去sklearn里面尝试下： http://scikit-learn.org/stable/modules/grid_search.html#out-of-bag-estimates

4-Hyperparameter Tuning

首先，明白下Hyperparameter是个啥，和模型参数有啥区别

4.1-Model Parameter vs Hyperparameter

这里举个例子：我们有一个线性回归的模型来表示features和target之间关系：

前言

当数据好了之后，你所需的只是调下开源包，然后一个模型就出来了，但是，好与不好？谁来界定？

这篇文章，主要针对模型的评估，系统介绍下各种不同的模型的各种评测标准，主要参考Alice Zhang的这篇文章 http://www.oreilly.com/data/free/evaluating-machine-learning-models.csp。

1-基础理解

Figure1-1是一个比较合理的产生机器学习模型的workflow，首先，我们拿到Historical data 然后应用到我们选择的model，然后对数据进行离线评测，离线评测一般我们会从Historical data中，通过一些策略选择出一些数据作为Validation，用来离线评测我们的模型，进行model selection和model params selection；也会引入一些live data来离线评价模型，待选择出合理的model和对应的params后，会对线上数据来一些相关的线上测试，例如本人所在公司会按流量对新旧model来进行A/B testing，利用最终的kpi指标来作为model的评判标准

2-模型评估标准

ML中，有多重不同考量的model，不同的目标有不同的评估标准，本节主要介绍Classification Metrics、Regression Metrics、Ranking Metrics

2.1-Classification Metrics

Accuracy

分类Accuracy就是指在分类方法中，被正确分类的样本数据占所有样本数量的比例。

Confusion Matrix

Accuracy的计算十分简便，但是类别之间是等价的，很多时候，由于判断为某类的代价不一致，我们不能简单地利用Accuracy来说明某个分类器的好坏。比如一个医生将患病病人评价为没有患病的情况比将未患病用户判定为患病用户的代价要大得多，后者可以通过其他检测来继续验证，而前者则很难；另外当本身训练数据中各样本数量分布极度不均衡的时候，比如#0/#1=9:1，即使是一个分类器将所有样本全部判断为0时，这个分类的accuracy也达到了90%，很显然这里是有问题的。

假定某样本有100个正样本与200个负样本，confusion table如下：

从这张图表中，我们可以很明显的看出在正分类中，我们的分类器有较低的准确率：(80/(20+80)=80%)，负分类中准确率为(195/(195+5)=97.5%)，如果仅仅考虑全局的accuracy，(80+195)/(100+200)=91.7%，丢失了很多信息。

Per-Class Accuracy

在上面例子中，对每类的accuracy做一个平均：(80%+97.5%)/2=88.75%，和之前的准确率相差较大，尤其是在分布极度不均的正负样本数量时，9+1-判断为10+,accuracy为90%，(100%+0)/2=50%

Log-Loss

在Logisitic Regression分类器中，最终的分类是指定阈值，然后对predict的值来进行判断进行分类，假定指定阈值0.5，model计算得到属于class 1的概率为0.51，这里有一个错误，但是这里有余概率与分类阈值相差很少，Log-Loss就是一个将此类因素考虑的标准：

pi是属于ith class的概率，yi是第ith的真实label，如果数据功底较强的人可能一眼就可以看出，这里其实就是y和p分布的Cross-Entropy，即真实label与预测的y的分布之间的差异。最小化Log-Loss即为最大化分类器的性能。

AUC

AUC即Area Under the Curve，这里的Curve就是ROC曲线，ROC的横坐标为Flase positive rate，纵坐标为Ture Positive Rate，用分类器的FP和TP来衡量分类器的性能好坏。而这里ROC是一个曲线而非一个值，AUC就是将该ROC用一个数值表示，这个数值就是曲线之下的面积。

2.2-Ranking Metrics

Ranking Metrics和前面的分类的merics，有很多相似的地方，例如，用户给定一个query，然后搜索引擎会反馈一个item list，这个item list会按照与用户query的相关性来进行排序，其本质就是一个0/1的二元分类器，其中score是分类为1的概率，以此为标准来进行相关性的判定。当然Ranking Metrics很多时候也使用Regression的Metrics，例如在个性化推荐系统中，会通过各种数据的feature来进行一个score的计算，并以此为标准对推荐结果进行排序。

这里，我们首先介绍下Precision-Recall，也就是在分类中经常使用的来作为Ranking Metrics

Precision Recall

通常，我们在ranking中只对top K来进行计算，就是所谓的precision@k,recall@k，precision和recall之间的关系有点类似于True Postive 和False Postive之间的关系，单独谈其中一样是没有意义的，通常我们使用F1 score来表明其好坏：

NDCG

NDCG是另一种很有效地排序标准，这里不对其做详细概念说明，只举一个例子就明白了，如想详细了解，请阅读 https://en.wikipedia.org/wiki/Discounted_cumulative_gain

假定某一个排序方法，给出的结果为D1,D2,D3,D4,D5,D6,而用户的相关得分（比如通过用户对其点击率来计算）为3,2,3,0,1,2。

则这个搜索的累积的熵为：

明显可知，CG对排序间item的相对位置不敏感，改变item彼此间的位置不影响CG的值，这是不合理的，这里我们添加一个Discounted信息：

这个ranking的DCG计算如下：

同理，我们做一个最佳的排序的计算，这里最佳的排序是按照用户相关得分的排序：

此时，最佳的DCG = 8.69

最终的Normalize DCG=8.10/8.69=0.932

2.3-Regression Metrics

在回归任务中，我们一般需要去预测数值型的得分，例如我们会预测未来一段时间股票的价格，另外个性化系统预测用户对某个item的得分，类似的这些任务我们都会用到回归方法。

RMSE

在回归任务中，最普通的评估标准是RMSE（root-mean-square error)：

Quantiles of Errors

RMSE有个比较严重的问题，它对large outliers比较敏感，通常一个比较大的离群值会很大地影响最终的RMSE值。Quantiles在某一方面来说，相对于RMSE来说鲁棒性比较高。

Median Absolute Percentage一般能够有效地减少离群值的影响：

当然，我们也可以使用第>90%的数据来找到数据当中的worst case，或者用<0.1来表示数据当中的best case。

2.4-Cautions

Training Metrics 和Evaluation Metrics的差异

很多时候，Evaluation Metrics 和Training Metrics可以通用，我们可以直接选定Evaluation Metrics为目标函数来对其优化，例如RMSE，但是也有很多Evaluation Metrics 不能直接作为目标函数来优化。

Skewed Datasets：Imbalanced classes，outliers， and Rare Data

如果在datasets中，正负样本数相差很大，比如99/1，这样我们的分类器很容易全1，来达到accuracy达到99%，ROC也很好看，但此时其实算法的泛化能力很差，应该是无效的。

3-线下评估机制

一般，我们将历史数据按某种策略分为训练数据和验证数据，以此我们做Model Training，根据相关评估标准来做Model Selection，选定好model方法之后，利用Validation data去做Hyperparameter tuner，选择出在验证集数据中性能最好的Hyperparameter sets。

很多时候，获取一个有效地历史训练数据集代价很大，我们通常只能获取到相对于真实数据很小的一部分数据，为了保证model的泛化能力，我们通常会采用很多其他的方法来充分验证，例如Hold-Out Validation,Cross-Validation,Bootstrap and Jackknife，这三种基本思想都相同，其中Hold-Out实现最简单，只是简单地将整个训练集分为训练集和验证集，然后用验证集的数据对训练集生成的model验证model有效性，Cross-Validation是将整个训练数据集划分为k-fold，多次取其中某一个fold做验证数据集，相对于Hold-Out Validation来说，相当于多次操作；前面两种可能大部分人都听说过，而Bootstrap很少有人了解，相对于Cross-Validation,其实质我们可以理解为，每次取K-fold里面的某部分做验证集，这其实是一种不放回的采样，而Bootstrap则恰好相反，它实质是一种由放回的采样原理：每次取其中某些数据做验证数据，然后放回重新选取，为什么要选择放回呢？统计学家们认为训练数据本身就有一种潜在的分布信息，我们称为”经验分布”，每次随机选取，然后不放回能够保证每次的经验分布都为原始的训练数据本身的分布信息，那么如此一来，bootstrap set中有很多数据是重复的（即为我们的经验分布），有个文档 https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf http://www.americanscientist.org/issues/pub/2010/3/the-bootstrap/1里面有详细的说明。如果想试试具体效果，可以去sklearn里面尝试下： http://scikit-learn.org/stable/modules/grid_search.html#out-of-bag-estimates

4-Hyperparameter Tuning

首先，明白下Hyperparameter是个啥，和模型参数有啥区别

4.1-Model Parameter vs Hyperparameter

这里举个例子：我们有一个线性回归的模型来表示features和target之间关系：

x是特征向量，y为对应的score值，而w则是我们通过训练得到的参数模型，我们所说的训练model其实就是最是采取优化策略来得到w产生最fit数据的预测数据。这里的w使我们常说的Model Parameter而Hyperparameter通常在原始的linear regression中不需要，但是在lasso、ridge 这些里面会增加一些正则化的考虑来惩罚复杂度较高的模型，而这里的惩罚系数就是我们这里提到的Hyperparameter。

在很多复杂的模型，例如Dt，SVM，GBDT中有很多复杂的Hyperparameter对最终的预测有很重要的影响。

4.2-Hyperparameter Tuning Mechanism

如何去选择Hyperparameter，我们提供四种方法：Grid Search，Random Search，Smart Hyperparameter Tuning，Nested Cross-Validation

x是特征向量，y为对应的score值，而w则是我们通过训练得到的参数模型，我们所说的训练model其实就是最是采取优化策略来得到w产生最fit数据的预测数据。这里的w使我们常说的Model Parameter而Hyperparameter通常在原始的linear regression中不需要，但是在lasso、ridge 这些里面会增加一些正则化的考虑来惩罚复杂度较高的模型，而这里的惩罚系数就是我们这里提到的Hyperparameter。

在很多复杂的模型，例如Dt，SVM，GBDT中有很多复杂的Hyperparameter对最终的预测有很重要的影响。

4.2-Hyperparameter Tuning Mechanism

如何去选择Hyperparameter，我们提供四种方法：Grid Search，Random Search，Smart Hyperparameter Tuning，Nested Cross-Validation

编辑于 2017-11-03 20:40

文章被以下专栏收录

小石头的码疯窝

也欢迎关注同名公众号小石头的码疯窝，不定期资料分享

代做工资流水公司南京工资代付流水多少钱银川房贷银行流水银川转账流水费用温州查询房贷银行流水厦门工资证明公司潮州房贷收入证明打印三亚打企业对私流水汕头对公账户流水办理三亚贷款银行流水开具新乡银行流水打印阜阳个人流水代开宜春做购房银行流水湖州转账流水模板宜春车贷银行流水代做湘潭贷款流水查询商丘代开个人工资流水大庆贷款流水代办泉州公司银行流水公司阜阳银行流水修改模板合肥签证流水办理代开银行流水账郑州车贷流水办理信阳车贷流水费用岳阳代做背调流水许昌代办工资代付流水商丘打自存银行流水吉林房贷银行流水代开绵阳个人工资流水报价揭阳打印企业对公流水石家庄背调工资流水图片香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户 315晚会后胖东来又人满为患了高校汽车撞人致3死16伤司机系学生张家界的山上“长”满了韩国人？张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲 “重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后原水城县长再被查凯特王妃现身！外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人多人受伤

代做工资流水公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化