Transformer的理解

7 篇文章 4 订阅
订阅专栏

1、seq2seq

seq2seq有两个RNN组成,一个是encoder,一个是decoder,举一个翻译的例子:
“我是女孩”,翻译“I am a girl”
输入序列:
x = (x0,x1,x2,x3) ,x0=我,x1=是,x2=女,x3=孩
目标序列:
t = (t0,t1,t2,t3)=(I am a girl)
通过encoder,把x=(x0,x1,x2,x3)映射为一个隐层状态h,再经由decoder将h映射为y=(y0,y1,y2,y3)(这里y向量长度可以发生变化,即与输入长度可以不同),最后将y与t做loss(交叉熵),训练网络

2、Transformer

Transformer时一个升级版的seq2seq,也是由一个encoder和一个decoder组成的,encoder对输入序列进行编码,即x变成h,decoder对h进行解码,得到y,但encoder和decoder都不用RNN,而是换成了多个attention

                                                        

                          

对上面的结构进行分开来看:
(1)左边的结构是encoder、右边是decoder
(2)encode、decoder的底部都是embedding,而embedding又分为又分为两部分:input embedding和position embedding,Transformer抛弃了RNN,而RNN最大的优点就是在时间序列上对数据的抽象,所以文章中作者提出两种Positional Encoding的方法,将encoding后的数据与embedding数据求和,加入了相对位置信息。
(3)encode、decoder的中部分是两个block,分别输入一个序列、输出一个序列,这两个block分别重复N次,encoder的每个block里有两个子网,分别是multihead attention和feedforward network(ffn);decoder的block里有三个子网,分别是multihead attetion和一个ffn。这些子网后面都跟了一个add&norm,即像resnet一样加一个
(4)decoder最后还有一个linear和softmax

2.1 Encoder

encoder由6层相同的层组成,每一层由两部分组成:multi-head self-attetion和position-wise feed-forward network(是一个全连接层),两个部分都有一个残差连接(residual connection),然后接着一个layer normalization

2.2 Decoder

decoder也是由6个相同的层组成,每一个层包括三个部分:multi-head self-attention mechanism、multi-head context-attention mechanism、position-wise feed-forward network
和 encoder 一样,上面三个部分的每一个部分,都有一个残差连接,后接一个 Layer Normalization。
decoder 和 encoder 不同的地方在 multi-head context-attention mechanism

2.3 Attention

attention可以简单理解成encoder层的输出经过加权平均后再输入到decoder层中,它主要应用在seq2seq模型中,这个加权可以用矩阵来表示,也叫attention矩阵,它表示对于某个时刻的输出y,它扎起输入y上各个部分的注意力,这个注意力就是刚才所说的加权
Attention 又分为很多种,其中两种比较典型的有加性 Attention 和乘性 Attention。加性 Attention 对于输入的隐状态 h_t 和输出的隐状态 s_t 直接做 concat 操作,得到 [s_t; h_t] ,乘性 Attention 则是对输入和输出做 dot 操作

3、Transoformer评价

(1)并行计算,提高训练速度
Transoformer用attention代替了原本的RNN,而RNN在训练的时候,当前的step的计算要依赖于上一个step的hidden state的,也就是说这是一个sequential procedure,即每次计算都要等之前的计算完成才能展开,而Transoformer不用RNN,所有的计算都可以并行计算,从而提高训练的速度
(2)建立直接的长距离依赖
在Transoformer中,由于self attentionn的存在,任意两个word之间都有直接的交互,从而建立了直接的依赖,无论二者距离多远

transformer理解
yang_daxia的博客
07-25 685
transformer使用了自注意力机制,摒弃了RNN中的循环结构,所以加速了推理时间,但是也丢失了位置信息,所以需要位置编码记录位置信息。
Transformer理解
qq1344574215的博客
09-24 1028
1.Transformer示意图 transformer宏观上由左边的六层endocer和右边的六层encoder构成,这些block各不分享权重,在左侧的encoder部分,前一时刻的encoder输出作为下一时刻encoder的输入,直到最后时刻的encoder的输出向量会传递给decoder的每一个block(block中的encoder-decoder attention模块)作为其输入的一部分。 下图所示的是encoder和decoder的详细释义图: 我们先来看一下encoder
Transformer简要介绍
Breeze
03-07 3189
本篇整理 Transformer 架构,及在 Transformer 基础上衍生出来的 BERT 模型,最后给出 相应的应用案例。 1.Transformer的架构 Transformer 网络架构架构由 Ashish Vaswani 等人在 **[Attention Is All You Need]**一文中提出,并用于机器翻译任务,和以往网络架构有所区别的是,该网络架构中,编码器和解码器没...
Transfomer
zhaohui blog
08-14 540
整理 Shusen Wang 的视频 《 transformer 模型 》笔记
如何最简单、通俗地理解Transformer
最新发布
2401_85379281的博客
09-07 1074
如何最简单、通俗地理解Transformer? 闲话少说,就问一件事情,大家在搞科研的时候有没有遇到这种情况,就是当前输入维度为N训练一个网络,但后期N的大小可能就变了,这时候普通的MLP或者CNN都会傻眼,但Transformer可以非常完美地解决这个问题,并且效果极佳。
超详细Transformer 讲解
qq_40550715的博客
04-29 4002
这篇文章分为以下几个部分 Transformer 直观认识 Positional Encoding Self Attention Mechanism 残差连接和 Layer Normalization Transformer Encoder 整体结构 Transformer Decoder 整体结构 总结 参考文章
Transformer模型深度解读
hellozhxy的博客
07-27 4978
“本文对Transoformer模型进行了深度解读,包括整体架构,Attention结构的背景和细节,QKV的含义,Multi-head Attention的本质,FFN,Positional Embedding以及Layer Normalization等一切你想知道的内容! ” 作者:潘小小,字节跳动AI-Lab算法工程师,专注机器翻译,会讲法语,喜欢音乐,写文,记录,无人机航拍(刚入坑)。文末有内推链接,欢迎勾搭投递!! 「Transformer」是2017年的一篇论文《Attenti...
Transformer详解
热门推荐
qq_52302919的博客
12-29 7万+
近期Transformer MLP系列模型的出现,增加了CV领域的多样性。但是Transformer这一不同领域的模型对学习者来说需要一个细致的学习过程.下面就是本菜鸟总结学习路线。
【深度学习系列(八)】:Transoform原理及实战之原理篇
wxplol的博客
10-17 1444
tranformer 文章目录tranformer[1 模型结构概览](https://datawhalechina.github.io/dive-into-cv-pytorch/#/chapter06_transformer/6_1_hello_transformer?id=_611-模型结构概览)[2 模型输入](https://datawhalechina.github.io/dive-into-cv-pytorch/#/chapter06_transformer/6_1_hello_transfor
Predictive Attention Transformer 理解
wuyuanli_r的博客
01-05 706
参考文献 Predictive Attention Transformer: Improving Transformer with Attention Map Prediction PA-transformer 的想法是将 QKT/NQK^T/\sqrt{N}QKT/N​ 做两种处理, 一是正常的 encode 到 下一个 encode 的 QKT/NQK^T/\sqrt{N}QKT/N​ , 另一个是使用 2D-卷积层, 两种处理的信息 以某种比例混合后用于 取值投影. 混合后的信息 也将有类似的两种处理
NLP中Transformer理解以及CV中Transformer(仅供自己学习用)
qq_41456654的博客
04-08 1200
更 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、NLP中Transformer二、模型介绍1.结构总结 前言 NLP中Transformer理解以及CV中Transformer。 阅读Transformer并看一些cv中的transformer应用 提示:以下是本篇文章正文内容,下面案例可供参考 一、NLP中Transformer 是什么 更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Netwo
Transformer模型详解
weixin_49376454的博客
05-28 1874
Transformer模型详解(人工智能)
图文详解Transformer
qq_40176087的博客
10-13 1万+
Transformer源于2017年谷歌的一篇论文Attention is all you need,这篇论文极具创新性,提出了新的Transformer结构,此后在此基础上又出现了GPT、Bert等优秀模型,这些优秀模型都是在Transformer的基础上衍生出来的,所以本文详细介绍一下Transformer的原理。 俯视Transformer 本文以机器翻译为例,先整体来看Tranformer...
大模型系列课程学习-AI 大模型时代的奠基石-transformer模型
chengjinpei的博客
12-29 838
文本分类:输入是一段文本,输出是该文本的类别命名实体识别:输入是一段文本,输出是该文本中的某些关键要素或者信息机器翻译:输入是一段语言文本,输出是 另一种语言文本文本摘要:输入是一段较长文本,输出是对该文本的一段精简表达文本多轮对话交互。
Transoformer再下一城之VSR-Transformer
WangsyHebut的博客
06-29 575
论文连接:https://arxiv.org/pdf/2106.06847.pdf 代码链接:https://github.com/caojiezhang/VSR-Transformer 译者言:ETHz出品,第一篇在VSR中使用的Transformer模型,方法与思想值得学习。模型与实验没有文章中大批量的数学公式那样惊艳,有数学推理癖好的读者建议直接阅读原文。Transformer应用在VSR中有两大问题:为了解决第一个问题,本文提出了一个时空卷积自注意层以利用局部信息。对于第二个问题,本文设计了一个双向
浅显解释tranformer
技术偏执怪
10-18 463
整体来看,transformer由Encoder和Decoder两部分组成,即编码和解码两部分,上图左边即是编码过程,右边即使解码过程,而图中N*表示有N个encoder和decoder。先说明encoder部分由input进行编码得到input embedding再与其位置编码positional encoding相加,得到n_input,该操作后,我们的input即有了每个input的意义又有了每个input相互的位置信息,即n_input即有了局部信息又包含全局信息。
Transformer中的FeedForward
flyfish
03-07 737
flyfish
Transformer模型-Feed Forward前馈网络,MLP和Relu激活函数的简明介绍:即2个线性层,中间通过Relu()连接。
Ankie资深技术项目经理
04-08 2398
位置感知Position-Wise前馈网络(FFN)由两个全连接层(fully connected dense layers,就是线性层(Linear Layer),或密集层(Dense Layer))组成,或者也可以称为多层感知机(MLP:multi-layer perceptron)。在层与层之间,使用ReLU激活函数,即max(0, X)。任何大于0的值保持不变,而任何小于或等于0的值都将变为0。它引入了非线性,有助于防止梯度消失。
transformer学习笔记:Feed-Forward Network
weixin_48799576的博客
09-04 5010
transformer结构在Muli-Head Attention层之后还添加了一层Feed-Forward层。Feed-Forward层包括两层全连接层以及一个非线性激活函数ReLu。
Transformer 理解
03-21
Transformer是一种用于自然语言处理的模型架构,它由编码组件和解码组件组成[^1]。Transformer的工作原理是通过注意力机制来处理输入序列和输出序列之间的关系[^2]。它在处理文本数据时具有很大的优势,并且在自然...
写文章

热门文章

  • tf.layers.dense()的用法 228089
  • BERT的理解 71179
  • python操作neo4j 66615
  • tf.nn.dropout()的用法 61784
  • BERT中文实战---命名实体识别 37007

分类专栏

  • leetcode 16篇
  • 推荐算法 1篇
  • 网址收藏 2篇
  • 政治老师的情怀
  • 深度学习 15篇
  • python 29篇
  • 编码
  • LSTM
  • tensorflow 15篇
  • keras 1篇
  • 数据库 7篇
  • 知识图谱 19篇
  • java 5篇
  • linux 4篇
  • 机器学习 8篇
  • 自然语言处理 7篇
  • BERT 7篇

最新评论

  • gensim调用doc2vec计算句子的向量

    七77.: 你好,是否可以分享数据呢?十分感谢

  • tf.nn.l2_loss()的用法

    沉默的羔羊君: 引用「l2_loss()这个函数的作用是利用L2范数来计算张量的误差值,但是没有开发并且只取L2范数的值的」 “开发”应该是“开方”,写错了吧

  • 知识图谱之知识融合

    2301_78004246: 融合知识

  • 数据脱敏python

    某疯子: 请问下,脱敏脚本可以求一个吗

  • LTP:Model not loaded!

    Emiya051: 路径也改了,版本也改了,但还是说没加载模型

大家在看

  • 多线程 951
  • 数据结构-链表-java实现-学习笔记
  • python实战(二)——房屋价格回归建模
  • 基于neo4j的学术论文关系管理系统 63
  • Altium Designer 入门基础教程(四)

最新文章

  • leetcode-存在重复元素
  • leetcode-189. 轮转数组
  • leetcode122-买卖股票的最佳时机 II
2022年4篇
2021年6篇
2020年10篇
2019年26篇
2018年77篇
2017年2篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨算法屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家湖北个性化玻璃钢雕塑哪家便宜福建周年商场美陈报价深圳节庆商场美陈销售企业洛阳肖像玻璃钢景观雕塑厂家玻璃钢雕塑如何改色南充玻璃钢仿铜雕塑厂家萍乡景观玻璃钢雕塑价位浙江户内玻璃钢雕塑供应商沧州玻璃钢仿真水果雕塑西樵古代玻璃钢人物雕塑雕塑玻璃钢产品材料银川仿真人物玻璃钢雕塑定制山东商业商场美陈销售公司石家庄人物玻璃钢雕塑公司烤漆玻璃钢卡通雕塑现货周年庆典商场美陈报价广州玻璃钢人物雕塑电话商场美陈广场公园玻璃钢雕塑尺寸玻璃钢小天使雕塑深圳仿铜玻璃钢雕塑玻璃钢人像雕塑哪家靠谱玻璃钢花盆石榴盆栽中式玻璃钢雕塑定制丽江玻璃钢雕塑安装湖北玻璃钢军人雕塑楼盘玻璃钢雕塑定制舟山人物玻璃钢雕塑市场玻璃钢花钵花盆系列雕塑价格嘉兴玻璃钢人像雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化