深层Transformer的一些工作

最新推荐文章于 2024-08-13 19:45:26 发布

leo0308

最新推荐文章于 2024-08-13 19:45:26 发布

阅读量585

收藏 2

点赞数

分类专栏： Transformer系列文章标签：深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/leo0308/article/details/123905923

版权

Transformer系列专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文探讨了如何通过不同的方法提升Transformer模型的深度，包括渐进式增加网络深度、动态层信息融合以及优化初始化策略。这些方法旨在解决深度学习中常见的梯度消失和爆炸问题，以实现更稳定且精确的训练。实验结果显示，这些策略能有效提高Transformer在神经机器翻译等任务上的性能。

摘要由CSDN通过智能技术生成

0 引言

自从Transforme提出之后，在各个领域获得了巨大的成功。在提升精度这条道路上，有很多的改进工作。
提升精度一个的一个常用做法就是把模型变大，增大模型的容量，从而提升模型的精度。增大模型有2个方向，一个是增加宽度，另一个是增加宽度。像Transformer-big版本就是增加了宽度。
但是对Transformer网络，单纯地直接增加深度通常会遇到梯度消失/爆炸等造成训练不稳定的问题。因此需要额外的手段解决这些问题。
本文分享几篇通过不同方式加深Transformer网络深度的文章。

1 deep Transformer的一些工作

1.1 渐进增加网络深度

论文： Depth Growing for Neural Machine Translation

主要思想：通过一个two-stage的方式，先训练一个较浅的Transformer网络，然后在这个基础上在叠加几层，冻结之前的层，只训练新加的层。
整体框架如下图：

结果：

1.2 动态层信息融合，提升浅层信息的流通性

论文： Learning Deep Transformer Models for Machine Translation

主要思想： 1) 采用pre-LN增加训练的稳定性， 2) 通过动态层信息融合的方式，提升浅层信息向深层的传递性，避免信息丢失等问题。

动态线性连接示例：

结果：

1.3 优化初始化的方式

论文： Very Deep Transformers for Neural Machine Translation

主要思想：通过ADMIN 初始化的方式一定程度上缓解梯度爆炸/消失的风险，从而可以训练更深的Transformer网络。

结果：

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

leo0308 CSDN认证博客专家 CSDN认证企业博客

157: 原创

1万+: 周排名

1万+: 总排名

40万+: 访问

: 等级

2587: 积分

305: 粉丝

744: 获赞

139: 评论

1516: 收藏

写文章

热门文章

彻底搞懂float16与float32的计算方式 50186
为matlab GUI添加背景图片 47761
LoRA微调方法详解 18584
解决mp4视频无法拖动进度条的问题 15212
PointNet介绍 10417

分类专栏

大模型 16篇
机器人 9篇
基础知识 50篇
Python 3篇
训练框架 9篇
目标检测和跟踪 8篇
Ollama 5篇
ROS2 3篇
RAG 2篇
Langchain 2篇
3D目标检测 16篇
随笔 5篇
卡尔曼滤波 3篇
Transformer系列 8篇
论文解读 23篇
Kotlin编程 3篇
Android开发
激光雷达 1篇
硬件知识 3篇
毫米波雷达 2篇
新思路 1篇
C++编程 3篇
模型压缩 3篇
神经网络架构搜索(NAS) 4篇
算法题解析 1篇

最新评论

详解机械臂标定方法
leo0308: 一般情况下都是刚性连接的。非刚性连接的不在讨论范围内。只要连接的足够牢靠，基本没有什么额外噪声影响。
详解机械臂标定方法
你头发乱拉: 您好，请问相机坐标系到机械臂坐标系的关系一定是刚体变换吗？实际应用过程中会有额外的噪声影响不？
详解机械臂标定方法
leo0308: 所以有什么问题呢？
解决huggingface模型不能下载的几个方法
zixingcai: 下载的有缺失
详解机械臂标定方法
Wei.star: 机械臂手眼标定难道不是要找出相机坐标系到工具坐标系的转换关系吗？

大家在看

c# lambda表达式基础语法 455
基于web的教育管理系统（源码+定制+开发）Web教育管理系统、在线教育管理平台、教学管理系统设计、Web教育平台优化、在线课程与学籍管理、教育机构管理系统
判断网站需不需要改版的几个要点 313
《山东大学学报（理学版）》 292
网站安全问题都有哪些，分别详细说明

最新文章

Next-Token Prediction is All You Need 智源发布原生多模态大模型Emu3
视觉语言动作大模型详解
OpenVLA-首个开源视觉语言动作大模型

目录

目录

分类专栏

大模型 16篇

基础知识 50篇

训练框架 9篇

目标检测和跟踪 8篇

3D目标检测 16篇

卡尔曼滤波 3篇

Transformer系列 8篇

论文解读 23篇

Kotlin编程 3篇

激光雷达 1篇

硬件知识 3篇

毫米波雷达 2篇

模型压缩 3篇

神经网络架构搜索(NAS) 4篇

算法题解析 1篇

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

玻璃钢生产厂家玻璃钢雕塑制品设备四川常见商场美陈费用动物玻璃钢雕塑销售电话福建欧式玻璃钢雕塑定制最好的云南玻璃钢雕塑工致的玻璃钢花盆江苏秋季商场美陈厂家供应吉林人物玻璃钢雕塑价格长春玻璃钢雕塑订制价格玻璃钢雕塑设计说明河北玻璃钢卡通雕塑设计玻璃钢雕塑摆件视频南宁玻璃钢雕塑翻模招聘商场市场部美陈兰州基督教玻璃钢雕塑一般商场美陈多少钱一平福建节庆商场美陈哪里买商场美陈选择青岛程通丰都玻璃钢人物雕塑阳泉玻璃钢玻璃钢雕塑公司南昌大型玻璃钢雕塑供应商济宁雕塑玻璃钢雕塑丰县制作玻璃钢雕塑公司选哪家园林玻璃钢花盆价格大型玻璃钢蘑菇雕塑图片西藏玻璃钢雕塑介绍玻璃钢花盆模具制作视频讲解玻璃钢雕塑行业怎么样商业步行街玻璃钢雕塑女红军玻璃钢雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤司机系学生 315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人？张立群任西安交通大学校长杨倩无缘巴黎奥运 “重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身！外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒投喂者赔24万房客欠租失踪房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫：哈马斯三号人物被杀测试车高速逃费小米：已补缴老人退休金被冒领16年金额超20万

玻璃钢生产厂家 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化