【读点论文呢】GhostNetV2: Enhance Cheap Operation with Long-Range Attention将自注意力机制融入到ghost模块中

171 篇文章 39 订阅
订阅专栏
文章介绍了GhostNetV2,这是一种针对移动应用设计的轻量级卷积神经网络架构。GhostNetV2通过引入硬件友好的DFC注意力机制,提高了模型在捕获长距离空间信息方面的能力,从而增强轻量级模型的表达能力。这种方法通过分解FC层来降低计算复杂性,同时保持高效的部署。实验表明,GhostNetV2在保持较低计算成本的同时,相比GhostNetV1在图像分类和目标检测等任务上实现了更好的性能。
摘要由CSDN通过智能技术生成

GhostNetV2: Enhance Cheap Operation with Long-Range Attention

MMDetection 整体构建流程和思想

  • 在这里插入图片描述

  • 训练部分一般包括 9 个核心组件,总体流程是:

    • 任何一个 batch 的图片先输入到 backbone 中进行特征提取;

    • 输出的单尺度或者多尺度特征图输入到 neck 模块中进行特征融合或者增强;

    • 多尺度特征最终输入到 head 部分,一般都会包括分类和回归分支输出;

    • 在整个网络构建阶段都可以引入一些即插即用增强算子来增加提取提取能力,典型的例如 SPP、DCN 等等;

    • 目标检测 head 输出一般是特征图,对于分类任务存在严重的正负样本不平衡,可以通过正负样本属性分配和采样控制;

    • 为了方便收敛和平衡多分支,一般都会对 gt bbox 进行编码;

    • 最后一步是计算分类和回归 loss,进行训练;

    • 在训练过程中也包括非常多的 trick,例如优化器选择等,参数调节也非常关键.

  • BBox Assigner

    • 正负样本属性分配模块作用是进行正负样本定义或者正负样本分配(可能也包括忽略样本定义),正样本就是常说的前景样本(可以是任何类别),负样本就是背景样本。因为目标检测是一个同时进行分类和回归的问题,对于分类场景必然需要确定正负样本,否则无法训练。该模块至关重要,不同的正负样本分配策略会带来显著的性能差异,目前大部分目标检测算法都会对这个部分进行改进,至关重要。一些典型的分配策略如下:

    • 在这里插入图片描述

  • BBox Sampler

    • 在确定每个样本的正负属性后,可能还需要进行样本平衡操作。本模块作用是对前面定义的正负样本不平衡进行采样,力争克服该问题。一般在目标检测中 gt bbox 都是非常少的,所以正负样本比是远远小于 1 的。而基于机器学习观点:在数据极度不平衡情况下进行分类会出现预测倾向于样本多的类别,出现过拟合,为了克服该问题,适当的正负样本采样策略是非常必要的,一些典型采样策略如下:

    • 在这里插入图片描述

  • BBox Encoder

    • 为了更好的收敛和平衡多个 loss,具体解决办法非常多,而 bbox 编解码策略也算其中一个,bbox 编码阶段对应的是对正样本的 gt bbox 采用某种编码变换(反操作就是 bbox 解码),最简单的编码是对 gt bbox 除以图片宽高进行归一化以平衡分类和回归分支,一些典型的编解码策略如下:

    • 在这里插入图片描述

  • Loss

    • Loss 通常都分为分类和回归 loss,其对网络 head 输出的预测值和 bbox encoder 得到的 targets 进行梯度下降迭代训练。loss 的设计也是各大算法重点改进对象,常用的 loss 如下:

    • 在这里插入图片描述

Abstract

  • 轻量级卷积神经网络(CNN)是专门为推理速度更快的移动设备上的应用而设计的。卷积运算只能捕获窗口区域中的局部信息,这阻碍了性能的进一步提高。在卷积中引入自我关注可以很好地捕获全局信息,但这将在很大程度上阻碍实际速度。在本文中,我们提出了一种硬件友好的注意力机制(称为DFC注意力),然后提出了一个新的用于移动应用的GhostNetV2架构。所提出的DFC注意力是基于完全连接的层构建的,它不仅可以在普通硬件上快速执行,而且可以捕获长距离像素之间的依赖性。

  • 我们进一步回顾了先前GhostNet中的表现力瓶颈,并建议在DFC的关注下增强由廉价操作产生的扩展功能,以便GhostNetV2块可以同时聚合本地和远程信息。大量实验表明GhostNetV2优于现有架构。例如,它以167M FLOP在ImageNet上实现75.3%的前1精度,以类似的计算成本显著超过GhostNetV1(74.5%)。

  • 论文地址: [2211.12905] GhostNetV2: Enhance Cheap Operation with Long-Range Attention (arxiv.org)

  • 源代码将在https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv2_pytorch和https://gitee.com/mindspore/models/tree/master/research/cv/ghostnetv2。

  • 尽管 Ghost 模块可以大幅度地减少计算代价,但是其特征的表征能力也因为 “卷积操作只能建模一个窗口内的局部信息” 而被削弱了。在 GhostNet 中,一半的特征的空间信息被廉价操作 (3×3 Depth-wise Convolution) 所捕获,其余的特征只是由 1×1 的 Point-wise 卷积得到的,与其他像素没有任何信息上的交流。捕捉空间信息的能力很弱,这可能会妨碍性能的进一步提高。本文介绍的工作 GhostNetV2 是 GhostNet 的增强版本,被 NeurIPS 2022 接收为 Spotlight。

Introduction

  • 在计算机视觉中,深度神经网络的架构在各种任务中发挥着至关重要的作用,如图像分类、对象检测和视频分析。在过去的十年中,网络架构一直在快速发展,已经开发了一系列里程碑,包括AlexNet、GoogleNet、ResNet和EfficientNet。这些网络将各种视觉任务的性能提升到了一个高水平。

  • 要在智能手机和可穿戴设备等边缘设备上部署神经网络,我们不仅需要考虑模型的性能,还需要考虑其效率,尤其是实际推理速度。矩阵乘法占据了计算成本和参数的主要部分。开发轻量级模型是减少推理延迟的一种很有前途的方法。MobileNet将标准卷积分解为深度卷积和逐点卷积,这大大降低了计算成本。MobileNetV2和MobileNetV3进一步引入了反向残差块并改进了网络架构。ShuffleNet利用shuffle操作来促进通道组之间的信息交换。GhostNet提出了降低信道中特征冗余的廉价操作。WaveMLP用简单的多层感知器(MLP)代替了复杂的自我关注模块,以降低计算成本。这些轻量级神经网络已经应用于许多移动应用中。

  • 然而,基于卷积的轻量级模型在建模长程依赖性方面较弱,这限制了进一步的性能改进。最近,类似transformer的模型被引入到计算机视觉中,其中自我关注模块可以捕捉全局信息。典型的自我关注模块需要与特征形状大小相关的二次复杂度,并且在计算上不友好。此外,需要大量的特征分割和重塑操作来计算注意力图。尽管它们的理论复杂性可以忽略不计,但在实践中,这些操作会导致更多的内存使用和更长的延迟。因此,在轻量级模型中使用普通的自我关注对于移动部署来说并不友好。例如,具有大规模自我关注操作的MobileViT比ARM设备上的MobileNetV2慢7倍多。

  • 在本文中,我们提出了一种新的注意力机制(称为DFC注意力)来捕获长距离空间信息,同时保持轻量级卷积神经网络的实现效率。为了简单起见,只有完全连接(FC)层参与生成关注图。具体地,FC层被分解为水平FC和垂直FC以聚集CNN的2D特征图中的像素。两个FC层涉及沿其各自方向的长范围像素,并且堆叠它们将产生全局接收场。此外,从最先进的GhostNet开始,我们重新审视了它的表示瓶颈,并通过DFC关注来增强中间特征。然后构建了一个新的轻量级视觉主干GhostNetV2。与现有架构相比,它可以在精度和推理速度之间实现更好的过渡(如下图所示)。

    • 在这里插入图片描述
  • Self-attention 的优点是长距离建模的能力,但是计算复杂度与输入的分辨率大小呈二次方增长的关系,这对于高分辨率的图片而言是非常不友好的。而一些检测和分割任务都需要高分辨率的输入,使得 Self-attention 无法扩展。

Related Work

  • 同时设计具有快速推理速度和高性能的轻量级神经架构是一项挑战。SqueezeNet提出了三种策略来设计紧凑的模型,即用1×1滤波器替换3×3滤波器,将输入通道的数量减少到3×3个滤波器,以及在网络后期进行下采样以保持大的特征图。这些原则是建设性的,尤其是1×1卷积的使用。MobileNetV1用1×1内核和深度可分离卷积替换了几乎所有的3×3文件器,这大大降低了计算成本。MobileNetV2进一步将残差连接引入到轻量级模型中,并构建了一个反向残差结构,其中块的中间层具有比其输入和输出更多的通道。为了保持表示能力,删除了一部分非线性函数。MobileNeXt重新思考了反向瓶颈的必要性,并声称经典的瓶颈结构也可以实现高性能。考虑到1×1卷积占计算成本的很大一部分,ShuffleNet将其替换为群卷积。频道洗牌操作有助于信息在不同组之间流动。通过研究影响实际运行速度的因素,ShuffleNet V2提出了一种硬件友好的新块。通过利用该功能的冗余,GhostNet用廉价的操作替换了1×1卷积中的半通道。到目前为止,GhostNet一直是SOTA轻量级模型,在精度和速度之间进行了很好的权衡。

  • 除了手动设计,还有一系列方法试图寻找一种轻量级的架构。例如,FBNet设计了一种硬件感知搜索策略,可以在特定硬件上直接找到准确度和速度之间的良好权衡。基于反向残余瓶颈,MnasNet、MobileNetV3搜索架构参数,如模型宽度、模型深度、卷积滤波器大小等。尽管基于NAS的方法实现了高性能,但它们的成功是基于精心设计的搜索空间和架构单元。自动搜索和手动设计可以结合起来,以找到更好的架构。

Preliminary

A Brief Review of GhostNet

  • GhostNet是SOTA轻量级模型,旨在对移动设备进行高效推理。它的主要组件是Ghost模块,它可以通过廉价的操作生成更多的特征图来取代原始的卷积。给定输入特征 X ∈ R H × W × C X∈R^{H×W×C} XRH×W×C,具有高度H、宽度W和通道数C,典型的Ghost模块可以通过两个步骤替换标准卷积。

  • 首先,使用1×1卷积来生成固有特征。

    • Y ′ = X ∗ F 1 ∗ 1 , ( 1 ) Y'=X*F_{1*1},(1) Y=XF11,(1)
  • 其中*表示卷积运算。F1×1是逐点卷积, Y ′ ∈ R H × W × C ′ o u t Y'∈R^{H×W×C'out} YRH×W×Cout是固有特征,其大小通常小于原始输出特征,即 C ′ o u t < C o u t C'out<Cout CoutCout。然后使用廉价的操作(例如,深度卷积)来基于固有特征生成更多特征。这两部分特征沿着信道维度,即:

    • Y = C o n c a t ( [ Y ′ , Y ′ ∗ F d p ] ) , ( 2 ) Y=Concat([Y',Y'*F_{dp}]),(2) Y=Concat([Y,YFdp]),(2)
  • 其中Fdp是深度卷积滤波器,Y∈RH×W×Cout是输出特征。虽然Ghost模块可以显著降低计算成本,但表示能力不可避免地被削弱。空间像素之间的关系对于进行准确识别至关重要。而在GhostNet中,空间信息仅由一半特征的廉价运算(通常通过3×3深度卷积实现)捕获。剩下的特征只是通过1×1逐点卷积产生的,没有与其他像素的任何交互。捕获空间信息的能力较弱可能会阻止性能的进一步提高。

  • 通过堆叠两个Ghost模块构建GhostNet块(如下图(A)所示)。与MobileNetV2类似,它也是一个反向瓶颈,即,第一个Ghost模块充当扩展层以增加输出通道的数量,第二个Ghost组件减少通道的数量以匹配快捷路径。

    • 在这里插入图片描述

Revisit Attention for Mobile Architecture

  • 源自NLP领域,基于注意力的模型最近被引入计算机视觉。例如,ViT使用由自我关注模块和MLP模块堆叠的标准变压器模型。Wang等人将自我关注操作插入卷积神经网络以捕获非局部信息。典型的注意力模块通常具有与特征大小相关的二次复杂度,这对于后续任务(如对象检测和语义分割)中的高分辨率图像是不可缩放的

  • 降低注意力复杂性的一种主流策略是将图像分割成多个窗口,并在窗口内或交叉窗口中执行注意力操作。例如,Swin Transformer将原始特征拆分为多个非重叠窗口,并在本地窗口内计算自关注度。MobileViT还将该特征展开为非重叠的补丁,并计算这些补丁的关注度。对于CNN中的2D特征图,实现特征分割和注意力计算需要大量的张量重塑和换位操作。其理论复杂性可忽略不计。在具有高复杂性的大型模型(例如,具有几十亿FLOP的Swin-B)中,这些操作仅占用总推断时间的几部分。而对于轻量级模型,其部署延迟不容忽视。

  • 为了直观理解,我们为GhostNet模型配备了MobileViT中使用的自我关注,并使用TFLite工具测量了华为P30(麒麟980 CPU)上的延迟。我们使用ImageNet的标准输入分辨率,即224×224,并将结果显示在下表中。注意力机制只增加了约20%的理论FLOP,但在移动设备上需要2倍的推理时间。理论和实际复杂性之间的巨大差异表明,有必要设计一种硬件友好的注意力机制,以便在移动设备上快速实现。

    • 在这里插入图片描述

    • 理论FLOP和实际延迟的比较。

Approach

DFC Attention for Mobile Architecture

  • 在本节中,将讨论如何为移动CNNs设计关注模块。期望的注意力具有以下属性:

    • 远程依赖。捕获长距离空间信息以提高表示能力至关重要,因为轻量级CNN(例如,MobileNet,GhostNet)通常采用小卷积滤波器(例如,1×1卷积)来节省计算成本。

    • 部署效率高。注意模块应该非常有效,以避免降低推理速度。具有高FLOP或硬件不友好操作的昂贵转换是意外的。

    • 概念简单。为了保持模型在不同任务上的通用性,注意力模块应该概念简单,设计精巧。

  • 尽管自我关注操作[vit,swin transformer,mobilevit]可以很好地模拟长期依赖性,但它们并不像上一节所讨论的那样高效部署。与它们相比,具有固定权重的完全连接(FC)层更简单、更容易实现,这也可以用于生成具有全局感受野的注意力图。详细的计算过程如下所示。

  • 给定一个特征Z∈RH×W×C,它可以看作HW标记zi∈RC,即Z={z11,z12,··,zHW}。生成关注图的FC层的直接实现公式如下:

    • α h w = ∑ h ′ , w ′ F h w . h ′ , w ′ ∗ z h ′ w ′ , ( 3 ) \alpha_{hw}=\sum_{h',w'}F_{hw.h',w'}*z_{h'w'},(3) αhw=h,wFhw.h,wzhw,(3)

    • 哪里是*元素乘法,F是FC层中的可学习权重,A={a11,a12,··,aHW}是生成的注意力图。上等式可以通过将所有令牌与可学习权重聚合在一起来捕获全局信息,这也比典型的自我关注简单得多。然而,其计算过程仍然需要二次复杂度w.r.t.特征的大小(即O(H2W2))2,这在实际场景中是不可接受的,尤其是当输入图像具有高分辨率时。

  • 例如,GhostNet的第4层具有3136(56×56)个标记的特征图,这导致了计算注意力图的极高复杂性。实际上,CNN中的特征图通常是低等级的,没有必要密集地连接不同空间位置的所有输入和输出标记。特征的2D形状自然提供了减少FC层计算的视角,即将方程3分解为两个FC层,并分别沿水平和垂直方向聚集特征。它可以表示为:

    • 在这里插入图片描述
  • 其中F H和F W是变换权重。将原始特征Z作为输入,将等式4和等式5依次应用于特征,分别捕获沿两个方向的长程相关性。我们将此操作称为去耦全连接(DFC)注意力,其信息流如下图所示。

    • 在这里插入图片描述

    • DFC关注的信息流。水平和垂直FC层分别沿两个方向捕获长距离信息。

  • 由于水平和垂直变换的解耦,注意力模块的计算复杂性可以降低到O(H2W+HW 2)。在充分注意(等式3)中,正方形区域中的所有面片直接参与聚焦面片的计算。在DFC注意中,一个补丁由其垂直/水平线中的补丁直接聚合,而其他补丁参与垂直/水平线上的补丁的生成,与聚焦令牌具有间接关系。因此,面片的计算还涉及正方形区域中的所有面片。

  • 等式4和5表示DFC注意力的一般公式,其分别沿水平和垂直方向聚集像素。通过共享一部分变换权重,它可以方便地用卷积实现,省去了影响实际推理速度的耗时的张量整形和换位操作。为了处理具有不同分辨率的输入图像,滤波器的大小可以与特征图的大小去耦,即,在输入特征上顺序应用核大小为1×KH和KW×1的两个深度卷积。当用卷积实现时,DFC注意力的理论复杂性表示为O(KHHW+KW HW)。TFLite和ONNX等工具很好地支持该策略,以便在移动设备上进行快速推断。

GhosetNet V2

  • 在本节中,我们使用DFC关注来提高轻量级模型的表示能力,然后介绍新的视觉主干GhostNetV2。

  • 增强Ghost模块。

    • 如前文中所讨论的,Ghost模块(等式1和2)中只有一半的特征与其他像素交互,这损害了其捕获空间信息的能力。因此,我们使用DFC关注来增强Ghost模块的输出特征Y,以捕获不同空间像素之间的长距离相关性。

    • 输入特征X∈RH×W×C被发送到两个分支,即,一个是Ghost模块以产生输出特征Y(等式1和2),另一个是DFC模块以产生注意力图A(等式4和5)。回顾在典型的自我关注中,线性变换层用于将输入特征转换为用于计算关注图的查询和键。类似地,我们还实现了1×1卷积以将模块的输入X转换为DFC的输入Z。模块的最终输出O∈RH×W×C是两个分支的输出的乘积,即。,

    • O = s i g m o i d ( A ) ∗ V ( x ) , ( 6 ) O=sigmoid(A)*V(x),(6) O=sigmoid(A)V(x),(6)

    • 其中Sigmoid是将注意力图A归一化为范围(0,1)的缩放函数。

  • 信息聚合过程如下图所示。对于相同的输入,Ghost模块和DFC注意力是从不同角度提取信息的两个并行分支。输出是它们的元素级产品,其中包含Ghost模块的特性和DFC关注模块的关注信息。每个关注值的计算涉及大范围的补丁,因此输出特征可以包含来自这些补丁的信息。

    • 在这里插入图片描述

    • 不同补丁的信息聚合过程。

  • 特征下采样

    • 由于Ghost模块(等式1和2)是一种非常有效的操作,因此直接将DFC注意力与之并行将引入额外的计算成本。因此,我们通过水平和垂直向下采样来减小特征的大小,以便DFC关注的所有操作都可以在较小的特征上进行。默认情况下,宽度和高度都缩放到其原始长度的一半,这减少了DFC关注的75%FLOP。然后,生成的特征地图被上采样到原始大小,以匹配Ghost分支中的特征大小。我们单纯地将平均池和双线性插值分别用于下采样和上采样。注意到直接实现sigmoid(或硬sigmoid)函数将导致更长的延迟,我们还将sigmoid函数部署在下采样的特征上,以加速实际推理。尽管注意力图的值可能不严格限制在范围(0,1)内,但我们从经验上发现,它对最终表现的影响可以忽略不计。
  • GhostV2 bottleneck.

    • GhostNet采用了一个包含两个Ghost模块的反向剩余瓶颈,其中第一个模块产生具有更多通道的扩展特征,而第二个模块减少通道数量以获得输出特征。这种反向瓶颈自然地将模型的“表现力”和“容量”解耦。前者由扩展的特征测量,而后者由块的输入/输出域反映。原始的Ghost模块通过廉价的操作生成部分功能,这会损害表现力和容量。通过调查DFC关注扩展特性或输出特性的性能差异,我们发现增强“表现力”更有效。因此,我们只将扩展的功能与DFC关注相乘。

    • 图(b)显示了GhostV2瓶颈的示意图。DFC注意力分支与第一个Ghost模块并行,以增强扩展的功能。然后,增强的特征被发送到第二Ghost模块以产生输出特征。它捕捉了不同空间位置的像素之间的长期相关性,并增强了模型的表现力。

    • 在这里插入图片描述

    • Ghost块是包含两个Ghost模块的反向剩余瓶颈,其中DFC的注意力增强了扩展的功能,以提高表达能力。

Experiments

  • 在本节中,我们对提出的GhostNetV2模型进行了实证研究。我们使用大规模ImageNet数据集对图像分类任务进行了实验。为了验证其通用性,我们使用GhostNetV2作为主干,并将其嵌入到轻量级对象检测方案YOLOV3中。在MS COCO数据集上比较了具有不同骨架的模型。最后,我们进行了广泛的消融实验,以更好地理解GhostNetV2。使用TFLite工具在华为P30(麒麟980 CPU)上测量实际延迟。

  • Image Classification on ImageNet

    • 设置:分类实验在基准ImageNet(ILSVRC 2012)数据集上进行,该数据集包含来自1000个类别的1.28万张训练图像和50K张验证图像。并在ImageNet数据集上报告单个裁剪的结果。所有实验均使用PyTorch和MindSpore进行。

    • 结果:ImageNet上不同模型的性能比较如下表、图1和图2所示。选择了几种重量轻的模型作为竞争方法。GhostNet、MobileNetV2、MobileNotV3和ShuffleNet是广泛使用的具有SOTA性能的轻量级CNN模型。通过结合CNN和Transformer,MobileViT是最近提出的一种新主干。与它们相比,GhostNetV2以更低的计算成本实现了显著更高的性能。例如,GhostNet V2仅使用167个FLOP就实现了75.3%的前1精度,这显著优于GhostNet V1(74.5%),计算成本相似(167M FLOP)。

    • 在这里插入图片描述

    • 实用推理速度。考虑到轻量级模型是为移动应用程序设计的,我们使用TFLite工具实际测量了基于arm的移动电话上不同模型的推断延迟。由于DFC注意力的部署效率,GhostNetV2还实现了精度和实际速度之间的良好权衡。例如,在类似的推断延迟(例如,37毫秒)下,GhostNet V2达到75.3%的前1精度,这显然是GhostNet V1具有74.5%的前1准确性。

  • Object Detection on COCO

    • 设置:为了验证GhostNetV2的泛化,我们进一步对目标检测任务进行了实验。实验在MS COCO 2017数据集上进行,该数据集由118k张训练图像和5k张验证图像组成。我们将不同的主干嵌入到广泛使用的检测头YOLOv3中,并遵循MMDetection 提供的默认训练策略。具体而言,基于ImageNet上预先训练的权重,使用SGD优化器对模型进行了30个时期的微调。批量大小设置为192,初始学习设置为0.003。实验以320×320的输入分辨率进行。

    • 结果:下表将所提出的GhostNetV2模型与GhostNetV1进行了比较。在不同的输入分辨率下,GhostNet V2显示出明显优于GhostNet V1。例如,在类似的计算成本(即340M FLOP,320×320输入分辨率)下,GhostNet V2达到22.3%mAP,这将GhostNet V1抑制0.5 mAP。我们得出的结论是,捕获长距离依赖性对于下游任务也至关重要,所提出的DFC注意力可以有效地赋予Ghost模块一个大的接受域,然后构建一个更强大和有效的区块。

    • 在这里插入图片描述

  • Semantic Segmentation on ADE20K

    • 我们在ADE20K上进行了语义分割实验,该实验包含20k个训练、2k个验证和3k个测试图像,其中包含150个语义类别。我们使用DeepLabV3模型作为分割头,并遵循MMSegmentation 的默认训练设置。根据ImageNet上预先训练的权重,模型被微调为160000次迭代,裁剪大小为512×512。表5显示了不同主链的结果。在语义任务中,GhostNetV2也实现了比GhostNetV1高得多的性能,这说明了GhostNetV2在不同任务上的通用性。
  • Ablation Studies

    • 在本节中,我们进行了广泛的实验,以研究GhostNetV2中每个组件的影响。实验在ImageNet上用GhostNetV2 1×。

    • 其他模型的实验。作为一个通用模块,DFC的注意力也可以嵌入到其他架构中,以提高其性能。具有不同注意力模块的MobileNetV2的结果如表4所示。SE和CBAM是两个广泛使用的注意力模块,CA[11]是最近提出的SOTA方法。所提出的DFC关注实现了比这些现有方法更高的性能。例如,所提出的DFC关注度将MobileNetV2的前1精度提高了2.4%,这在很大程度上超过了CA(1.5%)。

  • DFC关注内核大小的影响。我们根据功能的大小将GhostNetV2架构分为3个阶段,并将DFC关注应用于不同的内核大小(下表)。内核大小1×3和3×1不能很好地捕获长距离依赖,这导致了最差的性能(即74.8%)。增加内核大小以捕获长距离信息可以显著提高性能。

    • 在这里插入图片描述
  • 实施DFC关注的位置。GhostNetV2模型可以根据功能的大小分为4个阶段,我们根据经验研究了实现位置如何影响最终性能。结果如下表所示,从经验上表明,当在任何阶段实施DFC时,DFC注意力都可以提高性能。彻底调整或搜索合适的位置有可能进一步改善精度和计算成本之间的权衡,这超出了本文的范围。默认情况下,我们将DFC注意力部署在所有层上。

    • 在这里插入图片描述
  • 缩放功能的影响。对于注意力模型,有必要将特征图缩放到范围(0,1),这可以稳定训练过程。尽管理论上的复杂性可以忽略不计,但这些按元素操作仍会产生额外的延迟。表下表调查了缩放函数如何影响最终性能和延迟。尽管S形函数和硬S形函数带来了明显的性能改进,但直接在大型特征图上实现它们会导致较长的延迟。在上采样之前实施它们效率更高,但结果精度相似。默认情况下,我们使用sigmoid函数,并将其放在上采样操作之前。

    • 在这里插入图片描述
  • 增强表现力或能力。我们在两个Ghost模块上实现了DFC关注,并在下表中显示了结果。如第4.2节所述,前者增强了扩展功能(表现力),而后者提高了块的容量。在类似的计算成本下,增强扩展特征会带来1.4%的前1精度提高,这比增强输出特征要高得多。虽然增强这两个特征可以进一步提高性能,但计算成本也相应增加。默认情况下,我们只增强反向剩余瓶颈中的扩展特征。

    • 在这里插入图片描述
  • 上采样和下采样的调整大小功能。多个函数可以进行上采样和下采样操作,我们研究了几种广泛使用的函数,即平均池、最大池、用于下采样的双线性插值以及用于上采样的双线性、双三次插值(下表)。GhostNetV2的性能对调整大小功能的选择是鲁棒的,即,所有这些方法在ImageNet中都实现了类似的精度。它们的差异主要在于移动设备上的实际部署效率。最大化池比平均池效率稍高(37.5毫秒vs.38.4毫秒),双线性插值比双三次插值更快(37.5 ms vs.39.9毫秒)。因此,我们默认为下采样选择最大化池,为上采样选择双线性插值。

    • 在这里插入图片描述
  • 分离注意力和充分注意力的可视化。我们将垂直和水平注意力叠加产生的解耦注意力可视化,并将其与完全注意力进行比较。在低层中,分离的注意力显示出一些十字形图案,表明来自垂直/水平线的补丁参与更多。随着深度的增加,注意力地图的模式会扩散,并变得更接近于全注意力。

Conclusion

  • 本文提出了对硬件友好的DFC关注,并提出了一种新的用于移动应用的GhostNetV2架构。DFC注意力可以捕捉长距离空间位置中像素之间的相关性,这显著增强了轻量级模型的表达能力。它将FC层分解为水平FC和垂直FC,这两个方向分别具有较大的感受野。配备了这种计算效率高、部署简单的模块,GhostNetV2可以在精度和速度之间实现更好的权衡。在基准数据集(如ImageNet、MS COCO)上的大量实验验证了GhostNetV2的优越性。
【YOLOv8改进】 YOLOv8 更换骨干网络GhostNetV2 长距离注意力机制增强廉价操作,构建更强端侧轻量型骨干 (论文笔记+引入代码)
专注于图像领域,主要研究内容包括计算机视觉和深度学习,特别是在图像分类、目标检测和图像生成等方面有深入的研究和实践经验。
02-19 5942
轻量级卷积神经网络(CNNs)专为移动设备上的应用而设计,具有更快的推理速度。卷积操作只能捕获窗口区域内的局部信息,这限制了性能的进一步提升。将自注意力引入到卷积可以很好地捕获全局信息,但这将大大增加实际速度的负担。在本文,我们提出了一种硬件友好的注意力机制(称为DFC注意力),然后为移动应用呈现了一个新的GhostNetV2架构。所提出的DFC注意力基于全连接层构建,不仅可以在常见硬件上快速执行,还能捕获长距离像素之间的依赖关系。
深度学习论文: GhostNetV2: Enhance Cheap Operation with Long-Range Attention及其PyTorch实现
mingo_敏
12-07 488
在本文,作者提出了一种适用于硬件的注意力机制(称为DFC注意力),并提出了一种适用于移动应用的全新GhostNetV2架构。所提出的DFC注意力是基于全连接层构建的,它不仅可以在常见硬件上快速执行,还能够捕捉长距离像素之间的依赖关系。作者进一步重新审视了先前GhostNet的表达能力瓶颈,并提出了使用DFC注意力增强廉价操作产生的扩展特征,从而使GhostNetV2块可以同时聚合局部和长距离信息。
轻量级模型解读——GhostNet系列
最新发布
lishanlu136的博客
09-10 935
轻量级模型GhostNet系列模型解读
GhostNetV2 Enhance Cheap Operation with Long-Range Attention 论文学习
calvinpaean的博客
05-07 964
实际上,CNN 的特征图通常是 low-rank 的,并不需要将不同空间位置的所有的输入和输出 tokens 都密集地连接起来。在 DFC 注意力,一个区域只和它水平和垂直方向的区域做直接的融合,而其它区域只参与受关注 token 的水平和垂直方向的区域的生成,它们与受关注 token 只有间接的关联。对于相同的输入,Ghost 模块和 DFC 注意力是两个平行的分支,从不同的角度提取信息。因此,作者通过水平和垂直方向的下采样来降低特征图尺寸,这样 DFC 注意力的所有操作都可以在更小的特征上进行。
轻量主干新SOTA!GhostNetV2:长距离注意力机制增强(北大&诺亚)
CV_Autobot的博客
11-18 6614
作者|科技猛兽 编辑|极市平台点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【模型部署】技术交流群后台回复【模型部署工程】获取基于TensorRT的分类、检测任务的部署源码!导读本文提出了一种对硬件友好的 DFC 注意力机制,并借助它和 GhostNet 模型提出了一种针对端侧设备的GhostNetV2 架构。本文目录1 GhostNetV2:...
通俗易懂理解GhostNetV2轻量级神经网络模型
IT菜鸟
02-24 3525
通俗易懂理解GhostNetV2网络模型
GhostNet论文
Le0v1n 的博客
05-24 1479
GhostNet论文
华为发布GhostNetv2:端侧小模型在计算机视觉领域取得新的SOTA成果
GzvDart的博客
09-18 89
GhostNetv2的发布引起了广泛的关注和研究兴趣,它在计算机视觉领域取得了新的SOTA成果。研究人员和开发者可以通过使用GhostNetv2模型来实现高效的计算机视觉推理,从而在各种应用场景取得更好的性能。GhostNetv2在保持模型小巧的同时,进一步提升了性能,并取得了新的SOTA成果。华为最近发布了GhostNetv2,这是一款针对计算机视觉任务的端侧小模型,取得了引人注目的新成果,成为了性能最优秀的模型之一。以上是关于华为发布的GhostNetv2模型的详细介绍,同时提供了模型的源代码示例。
改进YOLO系列 | GhostNetV2: 用长距离注意力增强低成本运算 | 更换骨干网络GhostNetV2
YOLOv8项目贡献者
03-23 6466
注意力增强了扩展特征,以提高表现能力。块是一个反向残差瓶颈,包含两个。
YOLOv5改进系列:长距离注意力轻量化主干GhostNetV2结构助力降参涨点
ZzzzzKnight的博客
03-20 349
本文主要工作包括GhostNetV2介绍及改进代码策略,该模块为即插即用模块,部署位置可根据实际针对任务需求,自行调整本专栏持续更新,订阅本栏,关注更新~
YOLOv5改进实战 | 更换主干网络Backbone(二)之轻量化网络GhostnetV2,引入长距离注意力机制,构建更强端侧轻量型骨干,代码公开!
w94ghz的博客
10-14 2417
轻量级网络CNN系列(二):GhostNetV2
梦坠凡尘
06-29 2796
而在 DFC ,每个 patch 的注意力值的计算直接与它水平或垂直位置的 patch 有关,而这些水平或垂直位置的 patch 的计算又与它们水平或垂直位置的 patch 有关。DW卷积的一个卷积核负责一个通道,例如对一个3×5×5的图片,输出通道数要与输入通道数相同,则普通卷积操作需要3×3×3×3的卷积核,但DW卷积操作只需要3×3×3的卷积核。PW卷积相反,是一个1×1×C的卷积核,对每个通道的相同位置进行加权和,C为输入特征图的通道数,若输出通道数为5,则卷积核shape为C×1×1×5。
GhostNet v2(NeurIPS 2022 Spotlight)原理与代码解析
热门推荐
00000cj的博客
02-12 1万+
首先回顾下GhostNet,对于输入 \(X\in \mathbb{R}^{H\times W\times C}\),Ghost module将一个标准的卷积替换成两步。首先用一个1x1卷积生成intrinsic feature。
GhostNet论文阅读
qq_37705280的博客
04-17 1434
GhostNet:More Features from Cheap Operations. 1、主要思想 深度网络处理过的特征有一部分冗余,这类特征可以通过更廉价的方式获取,不一定非要传统代价较为高昂的运算方式。也就是说,它主要针对网络Feature Map通道间存在的相似性,引入通道间的线性变换来替代原始的传统CNN运算,在减少网络参数和计算量的同时,保持Feature Map原本的通道数和...
GhostNet 论文解读
qq_34023089的博客
06-09 934
GhostNet: More Features from Cheap Operations. CVPR 2020. 论文地址:arXiv 开源 PyTorch代码:GitHub 由于嵌入式设备上有限的内存和计算资源,很难在上面部署卷积神经网络。因此,深度神经网络设计最新的趋势是探索轻量级高效网络体系结构的设计。那些成功的CNN模型一个重要的特征是特征图冗余,大量甚至冗余的信息通常可以确保对输入数据的全面了解。 文章提出了一个新颖的模型(Ghost),可以通过廉价的操作生成更多的feature maps。基
论文笔记:GhostNet: More Features from Cheap Operations
爱学习爱运动的专栏
04-21 625
论文GhostNet: More Features from Cheap Operations(华为诺亚团队)
(五十一)论文阅读 | 轻量级网络GhostNet
Skies_的博客
01-30 2843
GhostNet 的阅读笔记
GhostNetV2学习笔记
charles_zhang_的博客
11-21 6415
轻量级卷积神经网络(CNNs)是专为在移动设备上具有较快推理速度的应用而设计的。卷积运算只能捕获窗口区域的局部信息,这阻碍了性能的进一步提高。在卷积引入自我注意可以很好地捕获全局信息,但会极大地影响卷积的实际速度。在本文,我们提出了一种硬件友好的注意机制(称为DFC注意),然后提出了一种新的移动应用的GhostNetV2架构。所提出的DFC注意结构基于全连接层,既能在普通硬件上快速执行,又能捕获远距离像素间的依赖关系。
论文阅读笔记:GhostNet
loki2018的博客
05-23 1448
1. GhostNet Han, Kai, et al. “Ghostnet: More features from cheap operations.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. 本文的题目起得很fancy,有一种神秘的色彩,其实读完文章之后,就会觉得ghost这个比喻非常的有趣也很贴切。阅读本文的前提必须对SENet以及深度可分离卷积这些工作有一定的
写文章

热门文章

  • 【读点论文】deeplabv1-v3系列对比,简单回顾 15351
  • 分枝定界法,例题梳理 12293
  • 【读点论文】ViTGAN: Training GANs with Vision Transformers 将视觉transformer和gan结合起来 7508
  • 【读点论文】Image Style Transfer Using Convolutional Neural Networks(将卷积特征图提取语义信息,融合内容和风格的做法) 6099
  • 【读点论文】Transformer in Transformer 细化图片结构,递归使用transformer。让图片去拟合自然语言处理的操作。 5927

分类专栏

  • 论文笔记 171篇
  • Linux 8篇
  • 啃书《C++Primer5 38篇
  • 深度学习 41篇
  • Java基础学习记录 3篇
  • pytorch 14篇
  • 机器学习 16篇
  • 电网异物检测 10篇
  • 大数据开发 8篇
  • 树莓派 14篇
  • 算法笔记 6篇
  • 啃书《Oracle开发实战经典》 9篇

最新评论

  • 【读点论文】Character Region Awareness for Text Detection通过预训练合成数据实现字符级的弱监督训练,加入分水岭实现字符分割,对连接类的语种不具适配性

    cxyasjtu: 博主好厉害呀😃坚持学习这么久,向博主学习😉

  • 【读点论文】YOLOX: Exceeding YOLO Series in 2021,无锚框单阶段目标检测方案,解耦检测头的分类和回归分支,优化标签分配策略

    羞儿: 它发表在arxiv上也可以引用。如果要引用需要看你需要什么引用格式 GB/T: Ge Z. Yolox: Exceeding yolo series in 2021[J]. arXiv preprint arXiv:2107.08430, 2021. MLB: Ge, Z. "Yolox: Exceeding yolo series in 2021." arXiv preprint arXiv:2107.08430 (2021). APA: Ge, Z. (2021). Yolox: Exceeding yolo series in 2021. arXiv preprint arXiv:2107.08430. @article{ge2021yolox, title={Yolox: Exceeding yolo series in 2021}, author={Ge, Z}, journal={arXiv preprint arXiv:2107.08430}, year={2021} }

  • 【读点论文】YOLOX: Exceeding YOLO Series in 2021,无锚框单阶段目标检测方案,解耦检测头的分类和回归分支,优化标签分配策略

    爆碎牙DA: 这篇文章是不是没有发表?该怎么引用啊

  • 【读点论文】SAM-LIGHTENING: A LIGHTWEIGHT SEGMENT ANYTHING MODEL,改进自注意力机制,然后知识蒸馏提点

    Throwdown227: 大佬有保存论文的源代码吗,文章中源代码链接已经失效了

  • 计算机网络中用于远程访问和文件传输的不同方式

    CSDN-Ada助手: 网络 技能树或许可以帮到你:https://edu.csdn.net/skill/network?utm_source=AI_act_network

最新文章

  • 【读点论文】MRZ code extraction from visa and passport documents using convoluti...护照机读区的识别,行文很适配,缺少数据和实现
  • 【读点论文】Character Region Awareness for Text Detection通过预训练合成数据实现字符级的弱监督训练,加入分水岭实现字符分割,对连接类的语种不具适配性
  • 【读点论文】Self-supervised Character-to-Character Distillation for Text Recognition通过连通域分割字形结构的自监督识别方法
2024
10月 1篇
09月 12篇
08月 15篇
07月 17篇
06月 7篇
05月 8篇
04月 11篇
03月 3篇
02月 9篇
01月 10篇
2023年148篇
2022年56篇
2021年42篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家周口泡沫玻璃钢景观雕塑玉林玻璃钢泡沫雕塑四川仿铜玻璃钢雕塑安装商场大门通道美陈珠海玻璃钢卡通雕塑销售厂佛像玻璃钢雕塑多少钱福建超市商场美陈人物玻璃钢雕塑低价甩卖阜阳玻璃钢雕塑铸造厂家襄阳广场玻璃钢雕塑铜陵玻璃钢雕塑生产商舟山玻璃钢雕塑公司有哪些专做园林景观玻璃钢雕塑肖像玻璃钢彩绘雕塑定制玻璃钢雕塑怎么不开裂梅州玻璃钢楼盘景观雕塑徐州玻璃钢广场雕塑设计玻璃钢牛的雕塑哪里生产苏州大型玻璃钢雕塑工厂枣庄园林玻璃钢雕塑深圳树脂玻璃钢雕塑怎么制作江西步行街玻璃钢雕塑制作商场推广美陈专员工作总结商场春季美陈主题名称汪汪队玻璃钢雕塑民俗文化玻璃钢雕塑上海主题商场美陈市场广东商场美陈研发公司上海市玻璃钢雕塑报价家居商场卫生间美陈香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化