《机器学习》 -- 周志华（第二章学习笔记）

最新推荐文章于 2024-08-08 09:52:55 发布

Cristal_yin

最新推荐文章于 2024-08-08 09:52:55 发布

阅读量1.7k

收藏 4

点赞数

文章标签：机器学习经验性能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/cristal_yin/article/details/74797108

版权

本文详细探讨了机器学习中模型评估的关键概念，包括经验误差与过拟合的区分，各种评估方法如留出法、交叉验证法和自助法的运用，以及性能度量标准如错误率、精度、查准率、查全率和F1值。此外，还讨论了ROC曲线、AUC和代价敏感错误率的重要性，最后阐述了比较检验和偏差-方差分解在模型选择中的作用。

摘要由CSDN通过智能技术生成

模型评估与选择

经验误差与过拟合

误差

一般的把机器学习器在训练集上的误差成为训练误差或者经验误差
在新样本上的误差称为泛化误差

过拟合

已经把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降，这样的现象叫做过拟合，与之相对的是“欠拟合”

泛化误差 vs 经验误差

泛化误差：在 “未来”样本上的误差
经验误差：在训练集上的误差，亦称“训练误差”
泛化误差越小越好，但是经验误差过小会导致“过拟合”

评估方法

关键：如何获得“测试集”

此处测试集应该于训练集 “互斥”
常见方法
- 留出法（hold-out）
- 交叉验证法（cross validation）
- 自助法（bootstrap）
留出法

直接将拥有的数据集分成两个互斥的集合，其中一个是训练集，一个为测试集
- 保持数据分布一致性
- 多次重复划分
- 测试集不能太大，不能太小
交叉验证法

先将数据集分成k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到

m表示样本数

自助法

在留出法和交叉验证法中，由于保留了一部分样本用于测试，因此实际评估的模型所使用的训练集比D小，这样会导致估计偏差

自助法直接以自助采样法为基础
- 训练集与原样本集同规模
- 数据分布有所改变
- “有放回取样” “可重复取样”
通过自助取样，有36.8%的样本未出现在采样数据集D’中，于是将D’做训练集，D\D’做测试集，这样的测试结果亦称“包外估计”

调参与最终模型

常涉及的两类参数
- 算法的参数：一般由人工设定，亦称“超参数”
- 模型的参数：一般由学习确定
两种方法调参过程相似：先生产若干模型，然后基于某种评估方法进行选择

参数调得好不好往往对最终性能有关键影响

性能度量

性能度量是衡量模型泛化能力的评价标准，反映了任务需求。

使用不同的性能度量往往会导致不同的评判结果。

回归任务常用均方误差

错误率与精度

错误率

分类错误的样本数占样本总数的比例
精度

分类正确的样本数占样本总数的比例

查准率与查全率与F1

分类结果混淆矩阵

真实情况	预测结果
	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

+ 查准率

P = T P T P + F

最低0.47元/天解锁文章

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Cristal_yin CSDN认证博客专家 CSDN认证企业博客

45: 原创

18万+: 周排名

33万+: 总排名

5万+: 访问

: 等级

1021: 积分

45: 粉丝

16: 获赞

3: 评论

50: 收藏

写文章

热门文章

fine-tuning 6043
《机器学习》--周志华（第五章学习笔记） 3645
《数字图像处理》--冈萨雷斯（第十章） 3428
《机器学习》-- 周志华（第一章学习笔记） 2877
《机器学习》--周志华（第六章学习笔记） 2606

分类专栏

随笔 2篇
机器学习 30篇
数字图像处理 7篇
web前端 3篇

最新评论

JAVA面试题（笔记）
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
数据分析
weixin_47875311: 作者大大能不能详细说一下K-Means.m函数部分，小白看不太懂
MNIST数据集训练
aliez.: 您好，请问这些代码是需要分开运行的吗

最新文章

计算机网络1-2
计算机网络备忘录
JAVA面试题（笔记）

目录

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

玻璃钢生产厂家辽宁玻璃钢雕塑供应商平凉仿真玻璃钢雕塑价格长春玻璃钢造型雕塑批发石家庄动物玻璃钢雕塑加工厂批发玻璃钢花盆花器黑龙江水果玻璃钢雕塑价位树脂玻璃钢雕塑厂家上海玻璃钢雕塑多少钱玻璃钢雕塑艺术漆背景墙双辽玻璃钢雕塑吉安商场美陈户外玻璃钢雕塑联系方式临沧玻璃钢雕塑报价宜昌玻璃钢考拉雕塑公司站姿玻璃钢雕塑价格表西宁玻璃钢博物馆雕塑商场门头周年美陈弥勒市玻璃钢雕塑怎么样梅州玻璃钢仿铜人物雕塑定制惠州玻璃钢人物雕塑恩施玻璃钢雕塑小品厂家郑州房地产玻璃钢人物雕塑价格安徽水果玻璃钢雕塑河南镂空不锈钢玻璃钢雕塑报价江苏景观玻璃钢雕塑玻璃钢八路军雕塑图片玻璃钢雕塑制作价格贵不贵玻璃钢乐队雕塑宝鸡学校玻璃钢人物雕塑厂家金山区镜面玻璃钢雕塑厂家直供香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤司机系学生 315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人？张立群任西安交通大学校长杨倩无缘巴黎奥运 “重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身！外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒投喂者赔24万房客欠租失踪房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫：哈马斯三号人物被杀测试车高速逃费小米：已补缴老人退休金被冒领16年金额超20万

玻璃钢生产厂家 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化