Transformer 架构逐层功能介绍和详细解释

23e1e733baa610a0a4784a735ba9ddc8.png

来源:Deephub Imba
本文共2700字,建议阅读5分钟
本文能让你对Transformer的整体架构有所了解。

多年来,深度学习一直在不断发展。深度学习实践高度强调使用大量参数来提取有关我们正在处理的数据集的有用信息。通过拥有大量参数,我们可以更容易地分类/检测某些东西,因为我们有更多的可以清楚地识别的数据。

目前为止深度学习中,特别是在自然语言处理领域的一个显着里程碑是语言模型的引入,它极大地提高了执行各种 NLP 任务的准确性和效率。

seq2seq模型是一种基于编码器-解码器机制的模型,它接收输入序列并返回输出序列作为结果。例如图像描述任务,输入给定的图像,输出则是为图像创建一个合理的描述。在这种情况下seq2seq 模型将图像像素向量(序列)作为输入,并逐字返回描述(序列)作为输出。

一些促进此类模型训练的重要 DL 算法包括RNN,LSTM,GRU。但随着时间的推移这些算法的使用逐渐消失,因为复杂性和一些缺点会随着数据集大小的增加而严重影响性能。这其中的重要的缺点包括较长的训练时间、梯度消失问题(当我们为大型数据集进一步训练模型时会丢失有关旧数据的信息)、算法的复杂性等。

Attention is all you need

在语言模型训练方面取代上述所有算法的爆发性概念之一是基于多头注意力的Transformer 架构。Transformer 架构最早是由谷歌在 2017 年的论文《Attention is all you need》中引入的。它受欢迎的主要原因是其架构引入了并行化。Transformer 利用了强大的 TPU 和并行训练,从而减少了训练时间。

Transformer 架构小时候看起来是这样的。

开个玩笑,以下是被传播最广泛的Transformer架构的可视化。

68ff9e9b9c52b15ab69349a1c42cb8d5.png

即使抽象了很多的细节,整个架构看起来还是非常庞大。这张图中每一层仍然隐藏着很多细节东西。我们在这篇文章中会介绍每一层以及它在整个架构中的作用。

Transformer 是一个用于 seq2seq 模型的编码器-解码器模型,左侧是输入,右侧是输出。在 它内部使用的注意机制已成为语言模型的首要算法。

现在我们开始详细介绍每一层的作用。我们将使用带有简单句子“I am a student”及其法语翻译形式“Je suis étudiant”的语言翻译任务示例。

Embedding layer

479da3cde39dfe38d6c3a313d9902a3b.png

输入嵌入是Transformer 编码器和解码器的第一步。机器无法理解任何语言的单词,它只能识别数字。所以我们通过这一层得到了输入/输出中每个单词的嵌入,这些嵌入使用 GloVe 等方法很容易获得。对于这个嵌入值,我们在句子中添加该词的位置信息(基于奇数或偶数位置出现的不同值)以提供上下文信息。

Multi-Head Attention

441f7b14ea09359ff0e550ebb5e30ff4.png

多头注意力层由组合在一起的多个自注意力层组成。注意力层的主要目的是收集有关句子中每个单词与其他单词的相关性的信息,这样可以获得其在句子中的含义。上图描述了我们句子中的每个单词如何依赖其他单词来提供含义。但要让机器理解这种依赖性和相关性并不是那么容易。

在我们的注意力层中,我们采用三个输入向量,即查询(Q)、键(K)和值(V)。简单的说:查询就像在浏览器上搜索的内容,浏览器会返回一组要匹配的页面它们就是是键,而我们得到真正需要的结果是值。对于句子中的给定词(Q),对于它中的其他词(K),我们得到它(V)对另一个词的相关性和依赖性。这种自我注意过程使用 Q、K 和 V 的不同权重矩阵进行了多次激素按。因此就是多头注意层,作为多头注意力层的结果,我们得到了多个注意力矩阵。

在架构中,我们可以看到解码器中还有另外两个注意力层。

Masked multi-head attention

5cf32e3b1a2bc4eee5302d59ba1ef981.png

这是我们解码器端的第一层注意力。但为什么它是Masked attention?

在输出的情况下,如果当前单词可以访问它之后的所有单词,那么它不会学到任何东西。它会直接继续并建议输出这个词。但是通过掩蔽我们可以隐藏当前单词之后的单词,它将有空间来预测到目前为止对给定单词和句子来说什么单词是有意义的。它已经有了当前单词的嵌入和位置信息,所以我们使用它之前使用 Q、K 和 V 向量看到的所有单词让它变得有意义并找出最可能的下一个单词。

Encoder-Decoder attention

ee26f78204026b50af3210ab29f20913.png

解码器端的下一个多头注意力层从编码器端获取两个输入(K,V),从解码器的前一个注意力层获取另一个(Q),它可以访问来自输入和输出的注意力值。基于来自输入和输出的当前注意力信息,它在两种语言之间进行交互并学习输入句子中每个单词与输出句子之间的关系。

Residual layer

9b08dd41e5c95c823a9f540fbfe7e084.png

这些注意力层将返回一组注意力矩阵,这些矩阵将与实际输入进行合并,并且将执行层/批量标准化。这种归一化有助于平滑损失,因此在使用更大的学习率时很容易优化

Feed Forward Layer

8d40397f78dd78a6eff0df7fe2bd22f8.png

在编码器块中前馈网络是一个简单的模块,它取出平均的注意力值并将它们转换为下一层更容易处理的形式。它可以是顶部的另一个编码器层,也可以传递到解码器端的编码器-解码器注意力层。

在解码器块中,我们还有另一个前馈网络,它执行相同的工作并将转换后的注意力值传递到顶部的下一个解码器层或线性层。

Transformer 的一个主要的特征就发生在这一层, 与传统的RNN不同,由于每个单词都可以通过其注意力值独立地通过神经网络,因此这一层是并行化激素按的。我们可以同时传递输入句子中的所有单词,编码器可以并行处理所有单词并给出编码器输出。

Output

31082a9cd39e092d6d51567bdcbb2066.png

在所有解码器端处理完成后,数据就被传送到带有线性层和 softmax 层的输出处理层。线性层用于将来自神经网络的注意力值扁平化,然后应用 softmax 来找到所有单词的概率,从中我们得到最可能的单词, 模型其实就是预测下一个可能的单词作为解码器层输出的概率。

整体总结

现在让我们快速浏览一下整个过程。

编码器Encoder

d676ef34238f097356b5a70a87d26f38.png

将输入句子中的每个单词并行传递。采用词嵌入并添加位置信息以提供上下文。然后有多头注意力层它学习与其他单词的相关性,从而产生多个注意力向量。然后将这些向量平均化并应用归一化层以简化优化。这些向量又被传递到前馈网络,该网络将值转换为下一个编码器或编码器-解码器注意力层可读的维度。

解码器Decoder

e63b4738bb3a456b0d59ebfa359080a4.png

首先是一个类似的词嵌入和添加上下文的预处理步骤。然后通过一个带有掩蔽的注意力层,它可以学习输出句子的当前单词和它之前看到的所有单词之间的注意力并且不允许即将出现的单词。然后通过残差连接的加和归一化层进行归一化操作,将编码器层的输出作为键、值向量到下一个注意层,解码器下一层将使用的注意力的值(V)作为查询(Q)。输入和输出语言之间的在这里进行了实际交互,这样使得算法更好地理解语言翻译。

最后是另一个前馈网络,它将转换后的输出传递到一个线性层,使注意力值变扁平,然后通过softmax层来获取输出语言中所有单词下一次出现的概率。概率最高的单词将成为输出。

编码器和解码器的堆叠

59b1181f6fb84faf50f1b44dd2d3f480.png

堆叠编码器和解码器也很有效,因为它可以更好地学习任务并提高算法的预测能力。在实际论文中,Google 堆叠了 6 个编码器和解码器。但也要确保它不会过度拟合并使训练过程变得昂贵。

最后总结

自从 Google 推出 Transformers 以来,它在 NLP 领域就一直是革命性的。它被用于开发各种语言模型,包括备受赞誉的 BERT、GPT2 和 GPT3,在所有语言任务中都优于以前的模型。了解基础架构肯定会让你在游戏中处于领先地位。

编辑:王菁

1390b370a023d3aa6903a8fe4bf87c60.png

数据派THU
关注 关注
  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【第49篇】Swin Transformer V2:扩展容量和分辨率
AI浩
10-01 1175
扩展语言模型已经取得了令人难以置信的成功。它显着提高了模型在语言任务上的性能 并且该模型展示了与人类相似的惊人的少数镜头能力。自从有了 3.4 亿参数的 BERT 大模型,语言模型在几年内迅速扩大了 1000 多倍,达到 5300 亿个密集参数和 1.6 万亿个稀疏参数。这些大型语言模型还被发现具有越来越强大的小样本能力,类似于人类智能,可用于广泛的语言任务。另一方面,视觉模型的推广一直滞后。
一切皆是映射:Transformer架构全面解析
AI架构设计之禅
08-10 613
1. 背景介绍 1.1 深度学习的革命:从CNN到RNN 深度学习近年来取得了令人瞩目的成就,从图像识别到自然语言处理,深度学习模型在各个领域都展现出了强大的能力。卷积神经网络(CNN)在处理图像数据方面表现出色,而循环神经网络(RNN)则擅长处理序列数据,例如文本和语音。然而,这两
Transformer入门(一)——结构
yeen123的博客
06-02 8729
Transformer入门介绍篇,分别介绍Transformer的总体结构与每个模块的实现原理
一文搞懂 Transformer(总体架构 & 三种注意力层)_transformer架构
qkh1234567的博客
08-01 2437
本文将从Transformer的本质、Transformer_的原理_、_Transformer的应用__三个方面,带您一文搞懂Transformer(总体架构 & 三种注意力层)。
Transformer架构
diannao720的博客
08-08 2339
Transformer架构是一种重要的神经网络模型架构,最初由Vaswani等人在2017年提出,并在机器翻译任务上取得了显著的性能提升。Transformer架构的优势在于它可以处理较长的输入序列,并且由于并行化的设计,训练和推理速度较快。此外,自注意力机制使得模型能够捕捉输入序列中不同位置之间的依赖关系,增强了模型的表达和建模能力。在自注意力机制中,输入序列中的每个位置都与其他位置进行交互,根据它们之间的相关性分配不同的权重。这有助于模型捕捉输入序列中的全局信息,并建立更好的表示。
Transformer架构详解
m0_63260018的博客
12-18 3972
Transformer是一种深度学习模型,最初是由Vaswani等人在2017年的论文《Attention Is All You Need》中提出的。这种模型在自然语言处理(NLP)领域特别流行,它引入了一种新的机制——自注意力(self-attention),使得模型能够更加高效和有效地处理序列数据。
【自然语言处理】Transformer架构解析
张小猪的家
08-16 1557
文章目录Transformer架构解析1. 认识Transformer架构Transformer模型的作用Transformer总体架构图2. 输入部分实现文本嵌入层的作用位置编码器的作用3. 编码器部分实现3.1 掩码张量3.2 注意力机制3.3 多头注意力机制3.4 前馈全连接层3.5 规范化层3.6 子层连接结构3.7 编码器层3.8 编码器4. 解码器部分实现4.1 解码器层4.2 解码器5. 输出部分实现线性层的作用softmax层的作用 Transformer架构解析 1. 认识Transfor
transformer 架构
08-23
Transformer架构是一种用于自然语言处理和机器翻译任务的神经网络模型。它是由Google的Vaswani等人在2017年提出的一篇论文《Attention Is All You Need》中引入的。Transformer采用了注意力机制(attention ...
Transformer 模型的详细配置---归一化、位置、激活函数和注意力机制
weixin_43961909的博客
06-28 765
    大语言模型的预训练过程中经常会出现不稳定的问题。为了应对这一问题,深度学习方法通常会采用特定的归一化策略来加强神经网络训练过程的稳定性。原始的 Transformer 模型主要使用了层归一化方法(Layer Normalization, LN)。随着研究工作的不断深入,基于层归一化的改进技术不断涌现,例如均方根层归一化(Root Mean Square Layer Normalization, RMSNorm)和 DeepNorm,这些新技术已经在一些大语言模型中得到应用。    LayerNorm
第八次组会PPT_Vision in Transformer
04-23
【Vision Transformer】(ViT) 是深度学习领域中一种创新性的模型,它源自于Transformer架构,最初被广泛应用于自然语言处理(NLP)任务。尽管Transformer在NLP中取得了显著的成功,但在计算机视觉(CV)领域的应用却...
Transformer架构解析
FY_2018的博客
08-07 2582
1.输入部分包含: (1)源文本嵌入层及其位置编码器 (2)目标文本嵌入层及其位置编码器 文本嵌入层的作用 无论是源文本嵌入还是目标文本嵌入,都是为了将文本中词汇的数字表示转变为向量表示, 希望在这样的高维空间捕捉词汇间的关系. 位置编码器的作用 因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理,因此需要在Embedding层后加入位置编码器,将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失. 2.编码器部分: (1)掩码张.
Transformer架构理解
Lafiteee的博客
02-14 1356
前言 本文是结合了B站李沐论文精读系列课程的内容和Transformer论文的内容,再加上自己的整理。 本文主要涉及到Transformer网络结构的LayerNorm、Attention、Embedding、Positional Encoding部分。 感谢李沐大神的视频课帮我对Transformer架构有了更深入的了解。 LayerNorm & BatchNorm BatchNorm BatchNorm是对每一个特征做Normalization。 以最简单的二维输入矩阵为例,矩阵的行为batch
Transformer 架构
weixin_42576186的博客
02-17 404
Transformer 是一种深度学习架构,它是一种编码器 - 解码器架构,用于自然语言处理任务,如机器翻译和语言模型。它的优势在于,它能够处理变长序列数据,并且不需要使用循环神经网络,这使得它在计算上比较高效。 Transformer 由一个编码器和一个解码器组成。编码器用于将输入序列编码为内部表示,解码器则用于将内部表示解码为输出序列。两者之间使用注意力机制进行交互,以便解码器可以在生成输出序...
Transformer总体架构
最新发布
qq_56246012的博客
10-12 684
本文本主要介绍Transformer总体架构,并使用Transformer模型架构处理从一种语言文本到另⼀种语言文本的翻译工作,注释超详细Transformer太难了。
【大模型学习】Transformer架构(非常详细)零基础入门到精通,收藏这一篇就够了
leah126的博客
07-20 1247
目前占主导地位的序列转换模型都是基于包含编码器和解码器的复杂递归或卷积神经网络。表现最好的模型通过注意力机制连接了编码器和解码器。我们提出了一种新的简单网络架构Transformer,它完全基于自注意机制,不使用任何递归或卷积。在两个机器翻译任务上的实验证明了这些模型具有更高的质量,并且可以并行化,训练时间也显著缩短。我们的模型在WMT 2014英语到德语翻译任务上达到了28.4 BLEU,超过了包括集成方法在内的现有最佳结果,提高了超过2 BLEU。
Transformer架构解析——认识Transformer架构
zane96的博客
11-12 1660
Transformer模型的总体架构——输入部分、输出部分、编码器部分、解码器部分
写文章

热门文章

  • 手把手教线性回归分析(附R语言实例) 158458
  • 独家 | 手把手教你用R语言做回归后的残差分析(附代码) 69366
  • 手把手教你用Keras进行多标签分类(附代码) 41056
  • 8800个机器学习开源项目为你精选TOP30! 35311
  • 手把手教你用Python进行回归(附代码、学习资料) 31729

最新评论

  • 新手必看!统计学知识大梳理(附框架图&公式)

    weixin_41564700: 感谢大佬的分享,逻辑性强,虽然不能全掌握,但学起来更加有逻辑了

  • 【KDD2024】面向鲁棒推荐的决策边界感知图对比学习

    m0_52819048: 有代码么,原文连接里打不开

  • 机器学习可视化技术概览(Python)

    Heartache Doctor: 第三部分绘图代码可以公开一下吗

  • 李飞飞斯坦福经典CS231N课程2023季《深度学习计算机视觉》不容错过!附Slides

    逆风的时候: 博主,有视频嘛?

  • 独家 | CIKM AnalytiCup 2017冠军团队获胜经验分享(附PPT&视频)

    WM_ZMY: 1129

最新文章

  • 仅一行代码,使LLaMA3在知识编辑任务上表现暴涨35%!您确定不来试试嘛?
  • 活动预告|Python科研应用分享会——Python进阶
  • CVPR 2024|多模态大模型引爆!“因果推理”加持, 解锁链接上下文学习的无限潜能...
2024
10月 67篇
09月 95篇
08月 99篇
07月 99篇
06月 94篇
05月 97篇
04月 102篇
03月 108篇
02月 96篇
01月 100篇
2023年1228篇
2022年932篇
2021年737篇
2020年586篇
2019年479篇
2018年460篇
2017年123篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家宁波创意玻璃钢雕塑生产厂家大型玻璃钢景观雕塑小品玻璃钢仿石头雕塑树脂玻璃钢人物雕塑湖北商场创意商业美陈浙江玻璃钢雕塑加工价格沈阳玻璃钢花盆雕塑温州公园玻璃钢雕塑多少钱湛江玻璃钢卡通雕塑摆件福建特色玻璃钢雕塑价位山西玻璃钢西红柿雕塑定做玻璃钢卡通雕塑找哪家封丘玻璃钢雕塑费用北京艺术商场美陈市场价淮安玻璃钢仿铜雕塑多少钱呈贡玻璃钢大型雕塑设计哪里好新乡清远玻璃钢切面动物雕塑欧式玻璃钢人物雕塑制作新余环保玻璃钢雕塑订做价格玻璃钢学校雕塑生产厂家河北仿铜玻璃钢雕塑哪家便宜临沧市玻璃钢雕塑供应商玻璃钢人物雕塑定制哪家好贵州玻璃钢雕塑艺术品巩义玻璃钢雕塑定制玻璃钢雕塑照明洛阳玻璃钢广场雕塑专业玻璃钢天猫雕塑南宁创意玻璃钢雕塑福建定制玻璃钢雕塑市场香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化