必读经典之swin transformer复现

频道收录

计算机视觉

Transformers

理论

版本

版本 1 - 2024/08/07 06:44

Notebook

必读经典之swin transformer复现

目录收起

必读经典之Swin Transformer
一、Swin Transformer
1. 相关背景
2.Swin Transformer vs ViT
二、Swin Transformer模型原理
1. Swin Transformer模型框架
2.Patch Merging详解
3. W-MSA详解
4. SW-MSA详解
三、模型效果
参考资料
swin transformer代码复现

文件

必读经典之swin transformer复现

详情

运行环境：

必读经典之Swin Transformer¶论文：https://arxiv.org/abs/2103.14030 代码：https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/tree/master/pytorch_classification/swin_transformer 评论一、Swin Transformer¶1. 相关背景¶长期以来，计算机视觉建模一直由卷积神经网络（CNN）主导。从 AlexNet 及其在 ImageNet 图像分类挑战中的革命性表现开始，CNN 体系结构通过更大的规模、更广泛的连接和更复杂的卷积形式，变得越来越强大。随着 CNN 成为各种视觉任务的骨干网络，这些架构上的进步带来了性能上的提升，广泛地推动了整个领域的发展。另一方面，自然语言处理（NLP）中网络架构的演变走了一条不同的道路，当今流行的架构是 Transformer 。 Transformer 专为序列建模和转导任务而设计，因其利用注意力来对数据中的远程依赖性进行建模而闻名。它在语言领域的巨大成功促使研究人员研究它对计算机视觉的适应，最近它在某些任务上展示了有希望的结果，特别是图像分类和联合视觉语言建模。 2.Swin Transformer vs ViT¶Swin Transformer使用了类似卷积神经网络中的层次化构建方法（Hierarchical feature maps），比如特征图尺寸中有对图像下采样4倍的，8倍的以及16倍的，这样的backbone有助于在此基础上构建目标检测，实例分割等任务。而在之前的Vision Transformer中是一开始就直接下采样16倍，后面的特征图也是维持这个下采样率不变。在Swin Transformer中使用了Windows Multi-Head Self-Attention(W-MSA)的概念，比如在下图的4倍下采样和8倍下采样中，将特征图划分成了多个不相交的区域（Window），并且Multi-Head Self-Attention只在每个窗口（Window）内进行。相对于Vision Transformer中直接对整个（Global）特征图进行Multi-Head Self-Attention，这样做的目的是能够减少计算量的，尤其是在浅层特征图很大的时候。这样做虽然减少了计算量但也会隔绝不同窗口之间的信息传递，所以在论文中作者又提出了 Shifted Windows Multi-Head Self-Attention(SW-MSA)的概念，通过此方法能够让信息在相邻的窗口中进行传递。评论二、Swin Transformer模型原理¶1. Swin Transformer模型框架¶ 首先将图片输入到Patch Partition模块中进行分块，即每4x4相邻的像素为一个Patch，然后在channel方向展平（flatten）。假设输入的是RGB三通道图片，那么每个patch就有4x4=16个像素，然后每个像素有R、G、B三个值所以展平后是16x3=48，所以通过Patch Partition后图像shape由 [H, W, 3]变成了 [H/4, W/4, 48]。然后在通过Linear Embeding层对每个像素的channel数据做线性变换，由48变成C，即图像shape再由 [H/4, W/4, 48]变成了 [H/4, W/4, C]。然后就是通过四个Stage构建不同大小的特征图，除了Stage1中先通过一个Linear Embeding层外，剩下三个stage都是先通过一个Patch Merging层进行下采样。然后都是重复堆叠Swin Transformer Block注意这里的Block其实有两种结构，如图(b)中所示，这两种结构的不同之处仅在于一个使用了W-MSA结构，一个使用了SW-MSA结构。而且这两个结构是成对使用的，先使用一个W-MSA结构再使用一个SW-MSA结构。且堆叠Swin Transformer Block的次数都是偶数（因为成对使用）。最后对于分类网络，后面还会接上一个Layer Norm层、全局池化层以及全连接层得到最终输出。 2.Patch Merging详解¶在每个Stage中首先要通过一个Patch Merging层进行下采样（Stage1除外）。如下图所示，假设输入Patch Merging的是一个4x4大小的单通道特征图（feature map），Patch Merging会将每个2x2的相邻像素划分为一个patch，然后将每个patch中相同位置（同一颜色）像素给拼在一起就得到了4个feature map。接着将这四个feature map在深度方向进行concat拼接，然后在通过一个LayerNorm层。最后通过一个全连接层在feature map的深度方向做线性变化，将feature map的深度由C变成C/2。通过这个简单的例子可以看出，通过Patch Merging层后，feature map的高和宽会减半，深度会翻倍。 3. W-MSA详解¶引入Windows Multi-head Self-Attention（W-MSA）模块是为了减少计算量。如下图所示，左侧使用的是普通的Multi-head Self-Attention（MSA）模块，对于feature map中的每个像素（或称作token，patch）在Self-Attention计算过程中需要和所有的像素去计算。但在图右侧，在使用Windows Multi-head Self-Attention（W-MSA）模块时，首先将feature map按照MxM（例子中的M=2）大小划分成一个个Windows，然后单独对每个Windows内部进行Self-Attention。 4. SW-MSA详解¶采用W-MSA模块时，只会在每个窗口内进行自注意力计算，所以窗口与窗口之间是无法进行信息传递的。为了解决这个问题，作者引入了Shifted Windows Multi-Head Self-Attention（SW-MSA）模块，即进行偏移的W-MSA。如下图所示，左侧使用的是W-MSA（假设是第L层），那么根据之前介绍的W-MSA和SW-MSA是成对使用的，那么第L+1层使用的就是SW-MSA（右侧图）。根据左右两幅图对比能够发现窗口（Windows）发生了偏移（可以理解成窗口从左上角分别向右侧和下方各偏移了⌊ M/2 ⌋ 个像素）。看下偏移后的窗口（右侧图），比如对于第一行第2列的2x4的窗口，它能够使第L层的第一排的两个窗口信息进行交流。再比如，第二行第二列的4x4的窗口，他能够使第L层的四个窗口信息进行交流，其他的同理。那么这就解决了不同窗口之间无法进行信息交流的问题。评论三、模型效果¶ 上表列出了从 224^2 到 384^2 不同输入图像大小的 Swin Transformer 的性能。通常，输入分辨率越大，top-1 精度越高，但推理速度越慢。评论参考资料¶https://blog.csdn.net/qq_37541097/article/details/121119988 评论