深层Transformer的一些工作
0 引言
自从Transforme提出之后, 在各个领域获得了巨大的成功。 在提升精度这条道路上, 有很多的改进工作。
提升精度一个的一个常用做法就是把模型变大, 增大模型的容量, 从而提升模型的精度。 增大模型有2个方向,一个是增加宽度, 另一个是增加宽度。 像Transformer-big版本就是增加了宽度。
但是对Transformer网络, 单纯地直接增加深度通常会遇到梯度消失/爆炸等造成训练不稳定的问题。 因此需要额外的手段解决这些问题。
本文分享几篇通过不同方式加深Transformer网络深度的文章。
1 deep Transformer的一些工作
1.1 渐进增加网络深度
论文: Depth Growing for Neural Machine Translation
主要思想:通过一个two-stage的方式, 先训练一个较浅的Transformer网络, 然后在这个基础上在叠加几层, 冻结之前的层, 只训练新加的层。
整体框架如下图:
结果:
1.2 动态层信息融合,提升浅层信息的流通性
论文: Learning Deep Transformer Models for Machine Translation
主要思想: 1) 采用pre-LN增加训练的稳定性, 2) 通过动态层信息融合的方式, 提升浅层信息向深层的传递性,避免信息丢失等问题。
动态线性连接示例:
结果:
1.3 优化初始化的方式
论文: Very Deep Transformers for Neural Machine Translation
主要思想: 通过ADMIN 初始化的方式一定程度上缓解梯度爆炸/消失的风险, 从而可以训练更深的Transformer网络。
结果:
leo0308: 一般情况下都是刚性连接的。 非刚性连接的不在讨论范围内。 只要连接的足够牢靠, 基本没有什么额外噪声影响。
你头发乱拉: 您好,请问相机坐标系到机械臂坐标系的关系一定是刚体变换吗?实际应用过程中会有额外的噪声影响不?
leo0308: 所以有什么问题呢?
zixingcai: 下载的有缺失
Wei.star: 机械臂手眼标定 难道不是要找出相机坐标系到工具坐标系的转换关系吗?