反向传播算法中,逐级向前计算delta公式的由来

4 篇文章 0 订阅
订阅专栏

 

 

 

学习吴恩达机器学习第九章反向传播编程练习,有这样一个公式:\delta^{(2)}=(\Theta^{(2)})^{T}\delta^{(3)}.*g'(z^{(2)})


它的证明在博客反向传播算法(过程及公式推导)中可以找到  https://www.cnblogs.com/wlzy/p/7751297.html

原博客证明内容过多,这里节选关键部分:

首先,将第层第个神经元中产生的错误(即实际值与预测值之间的误差)定义为:

(由后往前,计算每一层神经网络产生的误差):

 

 

        推导过程:

公式中通过求和号 \sum 把偏导数的分量相加,是以求多元复合函数偏导链式法则为依据的。

求多元复合函数偏导链式法则的理解可参考博客: 多变量微积分笔记4——全微分与链式法则

https://www.cnblogs.com/bigmonkey/p/8350943.html

在极坐标中,x = x(u, v), y = (u, v),退化成直角坐标后f = f(x, y),如何求f的全微分?这与之前不同,将x,y代入f后仍有两个变量,这需要连续使用链式法则:

  x和y的微小改变导致了f的改变,而u和v的微小改变有导致了x和y的改变,这样传递的结果就变成了u和v的微小改变有导致了f的改变。

  需要注意的是最终结果中的偏导:

其中f_{x}f_{y}x_{u}x_{v}y_{u}y_{v}不是函数,是偏导的数值。把它们理解成系数,就能理解其中系数的交换和重新结合,最终凑成全微分公式的形式,从中得到偏导数链式法则。

其实偏导数链式法则,就是全微分链式法则的延续,df可以分解为dx+dy,dx可以再分解为du+dv,dy可以再分解为du+dv,......,如果u或者v还是其他变量的函数,那么du或者dv还可以再分解。(我为了方便书写和理解没有带系数,比如dx+dy其实是dx与dy分别乘以系数的代数和,8dx+7dy,8和7分别是系数,如果我用另一个字母表示系数,那么看着更混乱)

 

以下链接可以帮助理解偏导数的求解过程,它利用的原理还是偏导数链式法则。

 

另外,关于\delta^{(3)} = a^{(3)}-y,是这样得来的:

因为,

通过导数运算得到:

 

\frac{\partial C}{\partial a}=a-y

但是少了一项\frac{\partial a}{\partial z},也就是sigmoid的导数,不应该忽略这一项。也许是因为这里的C是方差,而实际的C(J)是:

 


https://zhuanlan.zhihu.com/p/25081671

详解反向传播算法(上)

 

 

 

机器学习:一步步教你理解反向传播方法

 

https://yongyuan.name/blog/back-propagtion.html

 

反向传播算法(过程及公式推导)

https://blog.csdn.net/u014313009/article/details/51039334

图像处理算法实战应用案例精讲-【目标检测】YOLO(附python代码实现)
qq_36130719的博客
12-08 2230
物体检测——顾名思义就是通过深度学习算法检测图像或视频的物体。目标检测的目的是识别和定位场景所有已知的目标。有了这种识别和定位,目标检测可以用来计数场景的目标,确定和跟踪它们的精确位置,同时精确地标记它们。目标检测通常与图像识别相混淆,所以在我们继续之前,澄清它们之间的区别是重要的。图像识别为图像分配一个标签。狗的图片会被贴上“狗”的标签。两只狗的照片仍然会被贴上“狗”的标签。另一方面,对象检测在每只狗周围画一个盒子,并给这个盒子贴上“狗”的标签。模型预测每个对象在哪里以及应该应用什么标签。通过这种方
Robotics and Control Systems 原理与代码实战案例讲解
最新发布
程序员光剑
07-12 881
Robotics and Control Systems 原理与代码实战案例讲解 1. 背景介绍 1.1 问题的由来 随着科技的不断进步,机器人与控制系统在日常生活的应用日益广泛。从工厂生产线上
反向传播算法(前向传播、反向传播、链式求导、引入delta
weixin_30289831的博客
10-09 173
参考链接: 一文搞懂反向传播算法 转载于:https://www.cnblogs.com/tanrong/p/9758894.html
反向传播计算前级delta时,后级delta去掉常数偏置参数delta0的原因
qq_27361945的博客
11-26 320
学习吴恩达机器学习时,课程和练习题讲过,计算时需要去掉 代码也做了类似处理: for t in range(m): a1t = a1[t,:] # (1, 401) z2t = z2[t,:] # (1, 25) a2t = a2[t,:] # (1, 26) ht = h[t,:] # (1, 10) yt = y[t,:] # (1, 10) d3..
深度学习数学基础—反向传播
咖啡男孩之SRE之路
02-02 1114
反向传播公式推导以及数字识别案例
CNN反向传播
Swift's Blog
06-08 406
深度神经网络(DNN)反向传播公式推导可以参考之前的博客:https://transformerswsz.github.io/2019/05/29/反向传播/。 要套用DNN的反向传播算法到CNN,有几个问题需要解决: 池化层没有激活函数,我们可以令池化层的激活函数为 g(z)=zg(z) = zg(z)=z,即激活后输出本身,激活函数的导数为1。 池化层在前向传播的时候,对输入矩阵进行了压缩...
darknet反向传播原理(l.delta究竟在计算什么)
weixin_45209433的博客
08-14 1035
  看darkent的网络框架的小伙伴们,有没有发现其与caffe,pytorch的不同,有没有发现里面没有计算loss的代码,嗯嗯嗯????,forward函数一直在计算l.delta,backward函数也是和l.delta有关系的,看l.delta计算方式,怎么看都不像是loss的公式,那么,l.delta究竟是什么,搞明白这个问题需要了解反向传播的原理,由于pytorch已经将反向传播完全自动化,即使你将反向传播当作一个黑匣子来看,也不影响你在工作对网络的训练和测试,可是只知其然不知其所以然的感
成为计算几何master之路——记算法竞赛常用的计几算法及思想
qq_42778110的博客
05-08 2483
本文介绍了算法竞赛常用的计算几何算法及思想,为了力求简单粗暴,部分算法和常见算法在实现和常数上可能有出入,但是在复杂度和正确性上均有保证。
BP算法的Java实现
06-11
5. **反向传播误差**:从输出层开始,逐层向前传播误差,计算每层神经元的误差。 6. **更新权重**:根据误差和学习率,更新网络所有的权重。 7. **重复以上步骤**:直到网络的输出误差达到预设阈值或者达到...
Revisiting Oversmoothing in Deep GCNs 重新探究深度GCN的过度平滑
JYHlong的博客
07-04 1937
过度平滑被认为是深度图卷积网络(GCN)性能下降的主要原因。 在本文,我们提出了一种新的观点,即深层GCN可以在训练过程真正学会抗过度平滑。 这项工作将标准GCN体系结构解释为多层感知器(MLP)的分层集成和图正则化。 我们分析并得出结论,在训练之前,深层GCN的最终表示确实会过度平滑,但是,它会在训练过程学习到反过度平滑的功能。 根据结论,本文进一步设计了一种便宜而有效的技巧来改善GCN训练。 我们验证我们的结论并评估三个引文网络上的技巧,并进一步提供有关GCN邻域聚集的见解。
delta 反解算法 c语言程序
07-14
这是个小程序,Delta并联机构的反解算法,完整的代码,亲自测试,通过。
delta法则(梯度下降)
u010745111的专栏
09-19 1万+
背景: 尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。 因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。  delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能
反向传播输出层误差 δ
梦中随笔
06-08 2551
吴恩达机器学习第5课笔记 神经网络反向传播 吴恩达的机器学习的笔记已经很多了,本文只是记录一个一直没搞清楚的问题 在课程计算反向传播的时候,关于输出层的误差直接就给出了 δL=y−aL. \delta^{L}=y-a^{L}. δL=y−aL. 一直很疑惑,按照公式推算应该是 δL=∂C∂zL=∂C∂aL∂aL∂zL=∂C∂aLσ′(zL). \delta^L=\frac{\partial C}{\partial z^L}=\frac{\partial C}{\partial a^L}\frac{\par
什么是梯度下降法与delta法则?
mark_to_win的专栏
09-07 449
马克-to-win @ 马克java社区:防盗版实名手机尾号:73203。梯度下降法就是沿梯度下降的方向求解函数(误差)极小值。delta法则是使用梯度下降法来找到最佳权向量。拿数字识别这个案例为例,训练模型的过程通常是这样的。输入为1万张图片,也就是1万个样本,我们定义为D,是训练样例集合,输出为相对应的1万个数字。马克-to-win @ 马克java社区:这就是1万个目标输出(Target),...
反向传播示例代码全解析
J.zhang
07-05 3889
四个基本公式 (1). 输出层错误量的等式:δLj=∂C∂aLjσ′(zLj)δjL=∂C∂ajLσ′(zjL)\delta^L_j=\frac{\partial C}{\partial a_j^L}\sigma'(z^L_j) (2).依据下一层错误量δl+1δl+1\delta^{l+1}获取错误量δlδl\delta^l的等式:δl=((wl+1)Tδl+1)⊙σ′(zl)δl=...
深度学习总结(一)各种优化算法
热门推荐
qq_23269761的博客
07-03 5万+
参考博文: 码农王小呆:https://blog.csdn.net/manong_wxd/article/details/78735439 深度学习最全优化方法总结: https://blog.csdn.net/u012759136/article/details/52302426 超级详细每个算法的讲解,可参考: https://blog.csdn.net/tsyccnh/articl...
AdaDelta算法
XiangJiaoJun_的博客
11-11 2万+
记录一下自己的学习过程~也能让自己的印象更深吧 AdaDelta算法主要是为了解决AdaGrad算法存在的缺陷,下面先介绍一下AdaGrad算法优点和以及存在的问题: AdaGrad的迭代公式如下所示: Δxt=η∑i=1tgi2∗gt\Delta{x_{t}}=\frac{\eta}{\sqrt{\sum_{i=1}^{t}{g_i^2}}}*g_tΔxt​=∑i=1t​gi2​​η​∗gt​...
压缩篇:delta-of-delta编码
亚普的技术轮子
10-27 3447
前言 本文主要讨论时序数据库常见的一种时间戳或者数值压缩方法:delta-of-delta 算法,可以极大地降低数据存储的成本和提高数据写入、查询的性能。 delta-of-delta 压缩时间戳是 Facebook Gorilla 论文所提到的,论文地址:http://www.vldb.org/pvldb/vol8/p1816-teller.pdf。社区比较火热的 Prometheus TS...
神经网络反向传播算法详解
"这篇学习笔记主要讲解了神经网络反向传播算法,它是用来优化神经网络结构代价函数的一种方法,目标是找到使代价函数J(θ)最小化的参数θ。文章介绍了神经网络的代价函数计算以及如何利用偏导数进行优化。在只有...
写文章

热门文章

  • Python在方括号中使用for循环,类似[0 for i in range(10)],叫 列表解析List Comprehensions 161898
  • python判断一个对象是否为空的方法 62470
  • Excel如何将一张工作表拆分成多个工作表Sheet? 43897
  • 为什么Django设置时区为TIME_ZONE = 'Asia/Shanghai' USE_TZ = True后,存入mysql中的时间只能是UTC时间 40022
  • jquery 输入框失去焦点时 (blur)事件 34978

分类专栏

  • java spring 4篇
  • REACT 7篇
  • django 2篇
  • 机器学习 4篇
  • 研究过 41篇
  • 官方手册 14篇
  • PCI工具 2篇

最新评论

  • SpringBoot Profile多环境配置及配置优先级

    CSDN-Ada助手: Java 技能树或许可以帮到你:https://edu.csdn.net/skill/java?utm_source=AI_act_java

  • nodejs国内镜像及切换版本工具nvm

    普通网友: 支持一下!我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章

  • windows计划任务不生效,设置起始于路径后生效

    D_didadida: 不知道python怎么添加这个起始于路径

  • mybatis-plus的mapper.xml在src/main/java路径下如何配置pom.xml和application.yml

    CleloGauss: 没有在pom里build,我就说为什么一直找不到xml,感谢

  • Excel如何将一张工作表拆分成多个工作表Sheet?

    im_felicia: 看一下你的数透的筛选框,里面没内容导致

大家在看

  • 直方图均衡化 700
  • 【机器学习毕设】基于机器学习+随机森林+知识图谱的链家二手房数据可视化分析与房价预测系统(附源码+可文档报告+开发文档) 1371
  • 数据结构:二叉树(2) 805
  • 为什么大多数开发人员都避免在MySQL表名和列名中使用中文?
  • Spring事务失效的八大场景的分析

最新文章

  • O2OA审批流程配置方法
  • nginx过滤爬虫访问
  • SpringBoot Profile多环境配置及配置优先级
2024年10篇
2023年48篇
2022年24篇
2021年28篇
2020年52篇
2019年21篇
2018年240篇
2017年15篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家嘉兴步行街玻璃钢雕塑设计铜仁地区玻璃钢雕塑建邺商场中庭美陈营口玻璃钢雕塑定制玻璃钢小型雕塑定西玻璃钢景观雕塑定做玻璃钢景观造型假山雕塑图片贵阳多彩玻璃钢雕塑订做价格福建特色商场美陈哪里有马鞍山雕塑玻璃钢玻璃钢动物卡通雕塑大玻璃钢卡通雕塑图片珠海led发光玻璃钢雕塑现货商场美陈装饰哪家好北京玻璃钢雕塑设计安装佛山玻璃钢雕塑手工制作雅安玻璃钢雕塑公司广东定制玻璃钢动物雕塑费用深圳商场美陈工厂惠州玻璃钢人像雕塑图片西藏玻璃钢卡通雕塑介绍台南玻璃钢雕塑江苏户外商场美陈价钱辽宁商场创意商业美陈作品白色茶杯玻璃钢花盆10平米玻璃钢雕塑八面体玻璃钢花盆合肥夏季商场美陈宿迁玻璃钢景观雕塑设计玻璃钢小动物雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化