【Transformer】一文搞懂Transformer | CV领域中Transformer应用

1 篇文章 0 订阅
订阅专栏

阅读本文的基础:

  • 需要对【视觉卷积神经网络】比较熟悉。
  • 需要对【目标分类、检测任务】比较熟悉。
  • 需要对【RNN】有了解。

一、发展历史:

(参考: A Survey on Visual Transformer 2020.12.23)
( 参考Cheng He)

  • 起源:2017年6月谷歌《Attention is all you need》
  • 检测和分割:DETR(CNN+ Transformer,更简单和更灵活的pipeline)
  • 分类:Vision Transformer(only Transformer:SOTA,减少训练计算资源)
  • 像素级图像补全:Image GPT
  • 车道标记检测:End-to-end Lane Shape Prediction with Transformers
    在这里插入图片描述
    在这里插入图片描述

二、从上向下的理解Transformer

  • 本章的思路为:1、整体结构简单介绍 => 2、细节 => 3、整体结构详细介绍 => 4、Transformer的示例

1、Transformer整体结构简单介绍

( 参考 龙心尘)

  • Transformer由Encoders和Decoders组成,解决Seq2Seq问题
  • Encoders = 6 × \times × encoder, 这6个encoder结构相同,但不共享参数。
  • Decoders = 6 × \times × decoder, 这6个decoder结构相同,但不共享参数。
    在这里插入图片描述
  • 每个encoder都 = “self-attention” + “feed-forward network”。 self-attention,自注意力,获得上下文信息。feed-forward network,每个位置的单词对应的前馈神经网络都完全一样。(BP层和平常用的FC层的区别,参考:https://www.zhihu.com/question/470674012,感觉就是一个东西)
  • 每个decoder都 = “self-attention” + “attention” + “feed-forward network”。注意力层,用来关注输入句子的相关部分 。
    在这里插入图片描述

2、Transformer中的Self-attention

(参考:李宏毅老师的Transformer视频)
(参考: A Survey on Visual Transformer 2020.12.23)

(1)引入

  • 最简单的seq2seq结构就是RNN,缺点是不能并行化
  • 用一维卷积网络做seq2seq,可以平行化,但是缺点是必须叠很多层才能拥有大感受野
  • 利用Self-attention可以做到seq2seq结构,并且并行化,完全替代RNN

(2)self-attention

  • 第一步:提取qkv
    q: query(to match others) q q q = [ W q a i W^qa^i Wqai for i i i in range(len(a))]
    k: key(to be matched) k k k = [ W k a i W^ka^i Wkai for i i i in range(len(a))]
    v: value(information to be extracted) v v v = [ W v a i W^va^i Wvai for i i i in range(len(a))]
  • 第二步:做attention得到 α \alpha α(除以根号d是为了获得更稳定的梯度)
    用每个q( q i q^i qi)去和每个k( k j k^j kj)做乘法,得到attention( α i j = q i k j d \alpha^{ij}=\frac{q^ik^j}{\sqrt{d}} αij=d qikj
  • 第三步:softmax得到 α ^ \hat{\alpha} α^
    α ^ i j = e x p ( α i j ) / ∑ j e x p ( α i j ) \hat{\alpha}^{ij}=exp(\alpha^{ij})/\sum_j{exp(\alpha^{ij})} α^ij=exp(αij)/jexp(αij)
  • 第四步:weighted-sum得到b
    b i = ∑ j α ^ i j v j b^{i}=\sum_j\hat{\alpha}^{ij}v^j bi=jα^ijvj
    在这里插入图片描述

(3)并行化计算

  • 第一步:得到qkv
    Q = [ q 1 , q 2 , q 3 , q 4 ] = W q [ a 1 , a 2 , a 3 , a 4 ] Q=[q^1,q^2,q^3,q^4]=W^q[a^1,a^2,a^3,a^4] Q=[q1,q2,q3,q4]=Wq[a1,a2,a3,a4]
  • 第二步:做attention得到 α \alpha α
    α = [ k 1 , k 2 , k 3 , k 4 ] T [ q 1 , q 2 , q 3 , q 4 ] = K T Q \alpha=[k^1,k^2,k^3,k^4]^T[q^1,q^2,q^3,q^4]=K^TQ α=[k1,k2,k3,k4]T[q1,q2,q3,q4]=KTQ
  • 第三步:softmax得到 α ^ \hat{\alpha} α^
    对每一列进行softmax
  • 第四步:weighted-sum得到b
    b = [ b 1 , b 2 , b 3 , b 4 ] = [ v 1 , v 2 , v 3 , v 4 ] α ^ = v α ^ b=[b^1,b^2,b^3,b^4] =[v^1,v^2,v^3,v^4]\hat{\alpha}=v\hat{\alpha} b=[b1,b2,b3,b4]=[v1,v2,v3,v4]α^=vα^
    在这里插入图片描述

(4)Multi-head Self-attention

  • 意义:分为多个head,每个head做不同的工作,比如一个head负责局部,另一个负责全局(不同head is almost the same, except the随机初始化)。head数量是一个可调参数。
    在这里插入图片描述

  • 做法第一步:以2-head Self-attention为例。如图,qkv都分为两支,而左侧的q之和左侧的k做attention,右侧的q之和右侧的k做attention。
    在这里插入图片描述

  • 做法第二步:得到2个b,直接contact起来,如果得到的维度过大,可以直接再乘上一个矩阵降维。
    在这里插入图片描述

(5)位置编码Positional Encoding

  • 缺点:对于一个给定的self-attention层,无论序列以任何顺序输入,得到的输出总是相同的,因为self-attention无法关注到序列的位置信息。
  • 解决方法:Positional Encoding,将位置信息编码到向量e里,再将其原始向量a相加。

在这里插入图片描述

  • 为什么是e和a是相加而不是contact: 李宏毅老师也觉得很奇怪。

3、Transformer整体结构详细介绍

(参考:李宏毅老师的Transformer视频)

(1)整体

在这里插入图片描述
编码器部分同时输入“机器学习”四个中文,并同时得到编码结果。
解码器部分先输出“machine”,然后把“machine”作为解码器的输入,在输出“learning”。

(2)编码器部分

  • Positional Encoding:见上文
  • Multi-Head Attention:见上文
  • Add: 输出和输入相加(残差连接,防止梯度消失)
    在这里插入图片描述
  • Layer Norm
    第一、Layer Norm 一般搭配RNN使用
    第二、Batch Norm 令同一batch中 “所有data” 的同一纬度 的均值为0方差为1
    第三、Layer Norm 令同一data中 “所有纬度” 的 的均值为0方差为1,无Batch的概念
    在这里插入图片描述
  • Feed Forward:直接理解为两层全连接,权重映射+非线性激活+权重映射

(3)解码器部分

解码器部分先输出“machine”,然后把“machine”作为解码器的输入,在输出“learning”。

  • Masked Multi-Head Attention:这一层的输入是已经产生的输出,比如在解码器部分先输出“machine”之后,下一次解码器的输入就是“machine”。(masked的意思是只关注已产生的输出)
  • encoder-decoder attention层:就是解码器中的第二个Multi-Head Attention layer:它的K和V是编码器的,Q是之前层获得的。
    在这里插入图片描述
    解码过程动图

4、示例

(参考:李宏毅老师的Transformer视频)

  • 在不同的语境中,Transformer可以自行关注到重点内容。
    这个动物并没有过马路,因为它太累了:attention把"它"理解为动物。
    这个动物并没有过马路,因为它太宽了:attention把"它"理解为马路。
    在这里插入图片描述
  • multi-head attention 能够自行关注到局部和全局信息。
    下边的更关注局部信息(红色局部很明显),上边更关注长时信息(绿色全局很明显)。
    在这里插入图片描述

5、Transformer的compress与accelerate

(参考: A Survey on Visual Transformer 2020.12.23)(参考:大连理工大学 王栋老师 A Survey on Visual Transformer 导读)

  • 常见:pruning 剪枝,low-rank decomposition 低秩分解, 知识蒸馏,网络量化,精致结构等等
    在这里插入图片描述

  • 手机端要求模型大小要小。

  • 嵌入式端,如自动驾驶,更要求计算速度。

三、用Transformer解决计算机视觉问题

(参考: A Survey on Visual Transformer 2020.12.23)(参考:大连理工大学 王栋老师 A Survey on Visual Transformer 导读)
大部分视觉任务都只是使用了encoder部分,所以和CNN配合使用

1、iGPT(简介)

  • 自监督模型
  • 训练时,扣掉一个点,用周围的点去预测它。这样就会学到一个能理解图像内容的模型,再将这个模型用于特征提取。(类似于学英语,找到一篇文章,随机扣掉一个词,做完形填空,学好了之后去做阅读理解。)
  • 微调时,用交叉熵。
  • 完全照搬NLP中的策略

2、ViT(简介)

( 参考Cheng He)( 参考咫尺小厘米​)( 论文)

(1)简介:

  • An image is worth 16x16 words
  • 将图像拆分为小块,并提供这些小块的线性嵌入序列作为transformer的输入。
  • 性能优于CNN,计算资源减小4倍(但目前在显卡上计算效率不高);
  • 需要大数据预训练:transformer没有CNN固有的一些先验(平移不变性、局部性),所以在中等数据集不如CNN。
  • ViT在设计时尽可能地遵循原始的transformer。

(2)整体流程:

  • 先把图像分为16x16块
  • 每个块编码为向量,再加上位置编码
  • 输入Transformer
  • 分类层

在这里插入图片描述

3、DETR(详解)

(参考 Cheng He)
(参考 梦里梦到梦​)
(参考 henaqvmoyi)
(参考 学无止境)
( DETR原文)
( 看过的最好的讲解视频)

  • 缺点:大目标的检测性能显著提高,但小目标检测性能下降

(1)流程简介:

在这里插入图片描述

  • DETR是将目标检测视为一个集合预测(序列转换)问题。输入一个图像序列,输出为一个位置编码的集合序列。

(2)详细流程:

在这里插入图片描述

可以分为4个部分,backbone,encoder,decoder,后处理。

1)CNN Backbone+位置编码

在这里插入图片描述
输入图像尺寸为 B × 3 × H × W B \times 3 \times H \times W B×3×H×W,分为位置编码和特征提取两个分支

1.a 上边的分支:位置编码
  • MASK编码:因为是固定尺寸输入,所以可能图片中只有一部分是原始图片,其他是padding。需要一个mask区分出原始图片,直接以下采样32倍的尺度绘制mask,与后续对齐。铺平后得到序列形式的Mask
  • 位置编码:将位置信息编码为特征图,得到 B × 256 × H 32 × W 32 B\times 256 \times \frac{H}{32} \times \frac{W}{32} B×256×32H×32W的位置信息编码。
  • 序列化: 将长宽两维铺平,对其铺平后得到尺寸为 H W 3 2 2 × B × 256 \frac{HW}{32^2} \times B\times 256 322HW×B×256的序列。
1.a下边的分支:特征提取
  • CNN特征提取:(CNN去掉全局池化和线性层,下采样倍数为32,最后一层输出维度为2048),得到 尺寸为 B × 2048 × H 32 × W 32 B \times 2048 \times \frac{H}{32} \times \frac{W}{32} B×2048×32H×32W的特征图。
  • 特征图降维:使用1x1的卷积对CNN特征提取得到的尺寸为 B × 2048 × H 32 × W 32 B\times 2048 \times \frac{H}{32} \times \frac{W}{32} B×2048×32H×32W的特征图进行降维,得到尺寸为 B × 256 × H 32 × W 32 B\times 256 \times \frac{H}{32} \times \frac{W}{32} B×256×32H×32W的特征图。
  • 序列化: 将长宽两维铺平,对特征图铺平后得到尺寸为 H W 3 2 2 × B × 256 \frac{HW}{32^2} \times B\times 256 322HW×B×256的序列。
2)Encoder

在这里插入图片描述

  • 输入:铺平的特征图(特征序列)
  • 过程:特征映射
  • 输出:与输入相同大小的特征序列
3)Decoder

在这里插入图片描述

  • 输入:编码器的输出、object queries。
    (与BERT不同,不做自回归操作,不把输出重新作为输入,只是one-shot)
  • object queries是什么:可以理解为100个提问者,每个提问者关注图像的某一区域,如图所示,第一个object query更关注图像的左侧区域,第二个object query更关注图像的中间和偏下区域。
    在这里插入图片描述
  • object queries输入Decoder之后,Decoder做了什么:object queries作为Q,而编码器的输出作为K和V,这可以理解为,提问者向编码器的输出提问,并且自行决定关注编码器的输出的哪些部分。多次询问,以及提问者之间多次互相讨论之后,会得到预测框的输出。
4)后处理:匈牙利算法
4.a 基于CNN的检测算法的label assignment:

(参考: mileistone)

  • Faster RCNN/SSD/RetinaNet(Anchor机制):基于anchor与GT框IOU划分正负样本,允许多个anchor同时对应与某一个真值框
  • YOLOv1(Grid Cell机制,无anchor):每个Grid Cell最多只负责一个object,遍历真值框,为每个真值框选择一个Grid Cell。
  • YOLOv2(Grid Cell机制,有anchor):每个Grid Cell最多只负责一个object,遍历真值框,先为每个真值框选择一个Grid Cell;对于某一个真值框,计算它与它对应的Grid Cell中所有anchor的IOU,选择IOU最大的anchor作为positive;计算它与它对应的Grid Cell中所有proposal的IOU,IoU大于0.6的proposal对应的anchor为ignore。
  • YOLOv3:每个Grid Cell最多只负责一个object,遍历真值框,先为每个真值框选择一个Grid Cell;对于某一个真值框,计算它与Grid Cell中所有anchor的IOU(左上角对齐,不考虑位置),选择IOU最大的anchor作为positive;对于某一个proposal,计算它与它对应的Grid Cell中所有gt的IOU,IoU大的ignore。
  • FCOS(无anchor):对于每一层feature map,将每个坐标映射到原图,与包围它的GT框对应,有包围则为positive,没有则为negative,同时有多个的话取最小的为positive。
  • FreeAnchor:与某一GT的IOU低于0.6的anchor为negative;与某一GT的IOU高的top 50为候选positive,候选positive anchor对应的loss小的则为正式positive;以外的anchor为ignore。
  • AutoAssign:对于每一层feature map,将每个坐标映射到原图,与包围它的GT框对应,并不是直接划分正负样本,而是设定权重,positive的权重通过attention的方式来学,negative的权重通过与所有GT框之间最大的IoU负相关地确定。其余grid cell为negative,没有ignore。
4.b DETR的label assignment:
  • DETR使用的Loss是L1Loss(xywh绝对误差)和GIouLoss。Decoder的输出经过分类器后会得到100个预测框(有些预测框为空),在计算loss之前需要将预测框与GT匹配。DETR使用匈牙利算法实现该过程,简要来说,就是找到一种匹配方案,使loss总和”最小,是一个存粹的匹配问题,没有参数不需要学习。
  • 匈牙利算法的一个简单应用就是任务分配问题:N个人分配N项任务,一个人只能分配一项任务,一项任务只能分配给一个人,将一项任务分配给一个人是需要支付报酬,如何分配任务,保证支付的报酬总数最小。(已知每个人完成每项任务所需要的报酬:NxN的矩阵)。 实现过程可以参考: 一点心青

4、Deformable DETR(只言片语)

  • 如何看待商汤的Deformable DETR?能否取代Faster-RCNN范式?
(1)答案1:
  • Deformable DETR比DETR训练快10x
  • Backbone、 Matcher 和 positional encoding 的实现和 DETR是一样的
  • multi-scale deformable attention
  • DETR 中是直接回归的 bounding box 绝对坐标;Deformable DETR 引入了 reference,回归的是基于 point 坐标的 offset。
  • head 的部分调整了初始化策略,应该对训练也有帮助
  • K=1 的情况本身就相当于在 head 里引入了 Deformable Convolution ,baseline 上来就比 DETR 高了很多
(2)答案2:
  • Deformable DETR之于 DETR,应该相当于 ResNet 之于 AlexNet
  • 对全连接 Transformer 的计算量进行优化,为每个 query 采样 K 个 key-value pair
  • 最大的性能收益,来源于这一方法可以自然地引入多尺度特征。
(3)答案3:
  • self-attention的最大意义是在于建立长距离的相互关系,并且能够避免CNN中存在的归纳偏好问题,
  • 如果仅仅只在self-attention引入局部的attention操作就会失去self-attention建立长距离相互关系的优点
  • deformable attention操作降低self-attention的复杂度,同时保留了self-attention构建长距离相互关系的优点
Transformer 原理讲解以及在 CV 领域应用
迈微AI研习社 · 号主
05-17 2868
目前已经有基于Transformer在三大图像问题上的应用:分类(ViT),检测(DETR)和分割(SETR),并且都取得了不错的效果。那么未来,Transformer有可能替换CNN吗,Transformer会不会如同在NLP领域应用一样革新CV领域?后面的研究思路可能会有哪些呢?敬请期待下一篇文章给出解答。
TR1 - Transformer起源与发展
Loser
03-21 1152
自监督学习(Self-supervised Learning)是一种机器学习方法,其特点在于从数据本身自动生成标签或监督信号,无需人工标注。简单来说就是让机器利用数据本身的结构或特征来进行学习,从而不依赖于外部标签或监督信号。
计算机视觉CVTransformer
weixin_44522007的博客
02-22 1942
在计算机视觉领域,CNN自2012年以来已经成为视觉任务的主导模型。随着出现了越来越高效的结构,计算机视觉和自然语言处理越来越收敛到一起,使用Transformer来完成视觉任务成为了一个新的研究方向,以降低结构的复杂性,探索可扩展性和训练效率。 视觉应用 虽然Transformer结构在NLP领域得到了广泛的应用,但是在视觉领域应用仍然有限。在视觉领域,attention或者是和CNN网络共同使用或者是代替CNN特定的组件。想要将 Transformer应用到视觉任务,我们首先需要构建一些类..
一文看懂 Transformer!超级详解,小白入门必看!
最新发布
2301_76161259的博客
08-13 5693
Transformer是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism),这是一个关键的创新,使其在处理序列数据时表现出色。
Transformer讲解以及在CV领域应用
一只黑猩猩
01-10 3万+
文章目录Transformer一、思想和框图二、实现细节2.1 Encoder2.2 Decoder2.3 Self-Attention2.4 Multi-Headed Attention2.5 Positional Encoding2.6 Layer normalization三、应用任务和结果3.1 NLP领域3.2 CV领域3.2.1 检测DETR3.2.2 分类ViT3.2.3 分割SETR3.2.4 Deformable-DETR四、优点及分析五、缺点及分析六、参考文献 Transformer
【学习笔记】TransformerCV应用
女神sha手的博客
09-21 899
Transformer取代RNN,在nlp大杀四方之后,也来CV领域争夺市场了,大有取代CNN的趋势。目前关于TransformerCV领域应用越来越多,本文选具有代表性的有用于分类的Vit,用于检测的detr,和用于分割的mask2former做了简单介绍。
CV领域Transformer这一篇就够了(原理详解+pytorch代码复现)
ZhengrongYue的博客
07-07 9114
CV领域Transformer这一篇就够了(原理详解+pytorch代码复现)
【超详细】【原理篇&实战篇】一文读懂Transformer
热门推荐
艰难困苦,玉汝于成。
11-02 20万+
Transformer是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism),这是一个关键的创新,使其在处理序列数据时表现出色。
一文搞懂Transformer
m0_57084845的博客
11-15 353
例如,输入"“,输出"I”,输入"I",输出"I LOVE",输入"我爱",输出"I LOVE YOU",输入"我爱你",输出"我爱你"结束。在实际使用,每一条序列数据都是以矩阵的形式输入地,故可以看到上图,X矩阵是由"Tinking"和"Machines"词向量组成的矩阵,然后跟过变换得到Q,K,V。BN是对于相同的维度进行归一化,但是在NLP输入的都是词向量,一个300维的词向量,单独去分析它的每一维是没有意义地,在每一维上进行归一化也是适合地,因此这里选用的是LN。
一文读懂transformer(CV专享)
CV技术指南(微信公众号)
12-21 2661
导言: transformer在这两年大火,CV界广泛应用transformer模型,充分吸收其idea到自己的领域。考虑到transformer本是应用于NLP的论文,其很多内容都形成了共识,因此在论文并未提及,就好像CV论文提到图像预处理使用center crop , color jitter,但不会详细介绍这两个,这就是CV领域的共识,其他领域的人看到这两个将会很困惑,作为CV人读transformer会被很多共识内容所折磨,包括很多介绍transformer的博客知乎,都是站...
语音Transformer一文打尽!
BAAIBeijing的博客
01-29 1万+
写在前面——自 2017 年 Transformer 技术出现以来,便在 NLP、CV、语音、生物、化学等领域引起了诸多进展。知源月旦团队期望通过“Transformer+X” 梳理清 ...
Transformer-For-CV:适用于计算机视觉任务的Transformer应用程序摘要
02-19
大事记 自然语言处理 神经网络的序列到序列学习[NIPS 2014] [] [] 端到端存储网络[NIPS 2015] [] [] 注意就是您所需要的[NIPS 2017] [] [] 乙idirectionalËncoderř对产权在T ransformers:BERT [] [] [] 改革者:高效变压器[ICLR2020] [] [] Linformer:具有线性复杂度的自我注意[AAAI2020] [] [] 简历 分类 图像价值16x16字:用于图像识别的变压器[VIT] [ICLR 2021] [] [] DeiT:数据高效的图像变压器[arxiv2021] [] [] 侦测 DETR:使用变压器进行端到端对象检测[ECCV2020] [] [] 可变形DETR:用于端到端对象检测的可变形变压器[ICLR2021] [] [] 分割 SETR:使用变压器从序列到序
Transformer模型全面解析:工作原理、应用与未来展望*
洛阳泰山的博客
07-28 597
Transformer模型起源于2017年,由Google团队在《Attention is All You Need》一文首次提出。该模型以全新的自注意力机制为核心,彻底颠覆了传统RNN、LSTM等序列模型的设计理念。通过并行计算和全局信息交互,Transformer在处理长序列和复杂依赖关系时展现出显著优势。
CV-transformer
gg13213的博客
12-02 1363
CV-transformerVIT二级目录三级目录 VIT transformer sequence结构采用的是RNN网络,后面时刻的信息依赖于前一时刻,存在无法并行运算的问题。 CNN没有时序上的依赖可以进行并行运算,但CNN倾向于提取局部信息,没有全局视野。 Transformer的优势: 并行运算、全局视野、灵活堆叠能力。 二级目录 三级目录 ...
Transformercv应用(检测部分)(仅供自己学习使用)
qq_41456654的博客
04-08 1856
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、cvTransformer论文(检测部分)检测DERTDeformable-DETR 前言 随着Transformer在NLP的热潮,在cv领域也有人考虑其应用方向。 提示:以下是本篇文章正文内容,下面案例可供参考 一、cvTransformer论文(检测部分) 检测DERT 论文名字 End to End Object Detection With Transformer 源码:https://github.
理解CVtransformer系列(Swin,VIT,DTER
目睹闰土刺猹的瓜的博客
11-08 4681
看了很多transformer的讲解,有人从RNN开始讲起,有人从自注意力开始讲起,但是很少有人从CV开始讲。所以本文收集了一些从CV角度出发来理解transformer的文章。 TransformerCV界火的原因是?_idol24的博客-CSDN博客 https://www.jianshu.com/p/eb199b0fc98c 要正统学习还是去跟李沐大佬: 台大李宏毅21年机器学习课程 self-attention和transformer_哔哩哔哩_bilibili ...
transformercv领域
lyccccccccp的博客
02-23 1826
transformer - vision transformer()第一次将transformer运用在计算机视觉领域transformer模型的缺点:参数多,要求算力高缺少空间归纳偏置迁移到其他任务比较繁琐模型训练困难。
一文快速读懂Transformer
异构算力老群群(在读985计算机博士生)的技术博客
05-13 1971
由于其出色的性能和高效的并行计算能力,Transformer已成为许多NLP任务的首选模型。Transformer模型通过巧妙的编码器和解码器结构设计,以及自注意力机制的运用,实现了对序列数据的高效处理和理解。自注意力机制是Transformer模型的重要组成部分,它通过计算输入序列元素间的相关性得分,并利用这些得分进行加权求和,为模型提供了理解和处理输入数据的强大能力。自注意力机制是Transformer模型的关键部分,它通过计算输入序列元素间的相关性,帮助模型捕捉和理解数据的依赖关系。
Transformer系列专题(二)——multi-headed多头注意力机制
weixin_73044854的博客
05-23 1195
在实践,当给定相同的查询、键和值的集合时,我们希望模型可以基于相同的注意力机制学习到不同的行为,然后将不同的行为作为知识组合起来,例如捕获序列内各种范围的依赖关系(例如,短距离依赖和长距离依赖)。因此,允许注意力机制组合使用查询、键和值的不同的 子空间表示(representation subspaces)可能是有益的。
视觉transformer发展史
08-17
自Vision Transformer(ViT)在2020年推出以来,计算机视觉的研究重点逐渐转向了Transformer模型。ViT在图像分类任务上取得了先进的结果,但在视觉下游任务,如对象检测和分割方面的表现相对较差。然而,随着Swin Transformers的引入,Vision Transformer也开始在视觉下游任务发挥作用。 除了ViT和Swin Transformers,还有其他的Transformer模型在计算机视觉领域得到了广泛的研究和应用。其,有关Transformer的综述文章提供了对Transformer发展历程、基本结构和原理的详细介绍和学习笔记。这些学习笔记涵盖了高效Transformer、计算机视觉的自注意力以及Transformer的总结和展望等主题。 综上所述,视觉Transformer在计算机视觉领域的发展经历了从ViT到Swin Transformers的转变,并且还有其他Transformer模型得到了广泛的关注和研究。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [从感知机到Transformer一文概述深度学习发展史!](https://blog.csdn.net/Charmve/article/details/125214268)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [阅读学习笔记(二)-- transformer在计算机视觉领域的发展和应用](https://blog.csdn.net/sazass/article/details/123398441)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
写文章

热门文章

  • 一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系 99566
  • 【环境】cudnn下载慢、阿里云镜像、deb安装的cudnn卸载 6885
  • 【Transformer】一文搞懂Transformer | CV领域中Transformer应用 6831
  • 【环境】pytorch选择cuda的顺序【关于cudatoolkit和/usr/local/cuda】 4943
  • 最简单方式,nvidia与CONDA与CUDA与CUDNN的卸载与重装 3878

分类专栏

  • 环境 14篇
  • 目标跟踪 1篇
  • 目标检测 1篇
  • python 1篇
  • 一些简单的方法 2篇
  • mmdetection 1篇
  • 深度学习基础 2篇
  • 数学 2篇
  • 框架简要 1篇
  • window 1篇

最新评论

  • 一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系

    itachi-uchiha: 非常不错的技术领域文章分享,解决了我在实践中的大问题!博主很有耐心,写了这么实用有效的分享,值得收藏点赞。

  • 一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系

    itachi-uchiha: 非常不错的技术领域文章分享,解决了我在实践中的大问题!博主很有耐心,写了这么实用有效的分享,值得收藏点赞。

  • 一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系

    itachi-uchiha: 非常不错的技术领域文章分享,解决了我在实践中的大问题!博主很有耐心,写了这么实用有效的分享,值得收藏点赞。

  • 一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系

    itachi-uchiha: 非常不错的技术领域文章分享,解决了我在实践中的大问题!博主很有耐心,写了这么实用有效的分享,值得收藏点赞。

  • 一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系

    qq_39322426: 非常详尽清晰,感谢!

大家在看

  • 1024,程序员节日快乐
  • linux 两数之和
  • ransac拟合平面(c++详细版)
  • 【 thinkphp8 】00008 thinkphp8数据查询,常用table,name方法,进行数据查询汇总
  • Spring Boot 中的 @RequestMapping 和 Spring 中的 @RequestMapping 有什么区别? 263

最新文章

  • 【玩】三阶魔方公式
  • 【Kivy】基于Kivy实现倒计时(心流状态)
  • 【环境】pytorch选择cuda的顺序【关于cudatoolkit和/usr/local/cuda】
2022年2篇
2021年27篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家老城玻璃钢雕塑厂家西瓜玻璃钢雕塑定制山东开业商场美陈市场报价南京玻璃钢雕塑服务至上标牌玻璃钢仿铜雕塑定做商场美陈考核项目庐江玻璃钢雕塑昆山商场春季美陈德州公园玻璃钢雕塑定制邯郸玻璃钢卡通雕塑定制玻璃钢公仔人物雕塑生产玻璃钢迎宾人物雕塑厂家电话沧州人物玻璃钢雕塑生产厂家浙江玻璃钢仿铜雕塑厂家供应玉林玻璃钢商场美陈商场美陈全面启动花园玻璃钢花盆山东商场主题创意商业美陈价格陕西玻璃钢雕塑研究洪江玻璃钢胸像雕塑商场美陈与dp街道宣传玻璃钢雕塑玻璃钢商场美陈雕塑厂家四川开业商场美陈价钱齐齐哈尔玻璃钢雕塑德惠玻璃钢气球雕塑潮州玻璃钢唱戏人物雕塑报价吕梁玻璃钢海豚雕塑厂家广西玻璃钢金属雕塑介绍广场玻璃钢卡通雕塑怎么样香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化