华为等提出视觉Transformer综述:全面调研
21页Visual Transformer综述,共计156篇参考文献!本文将视觉Transformer模型根据不同的任务进行分类(如检测、分类、视频等),并分析了这些方法的优缺点!
注:文末附**【Transformer】**学习交流群
A Survey on Visual Transformer
- 作者单位:华为诺亚, 北京大学, 悉尼大学
- 论文:https://arxiv.org/abs/2012.12556
Transformer是一种主要基于自注意力机制的深度神经网络,最初应用于自然语言处理领域。受到Transformer强大的表示能力的启发,研究人员提议将Transformer扩展到计算机视觉任务。与其他网络类型(例如CNN和RNN)相比,基于Transformer的模型在各种视觉基准上显示出竞争甚至更好的性能。
在本文中,我们通过将这些视觉Transformer模型分类为不同的任务,并分析了这些方法的优缺点,提供了文献综述。特别地,主要类别包括基本图像分类,高级视觉,低级视觉和视频处理。
渣渣喝: 现在魔改网络换个概念都能发顶会了
幼儿园老大209: CVPR2022
Priplex: 你好,找到这篇论文的代码了吗?
weixin_46195761: 眨眼不了
锦鲤程序猿: 这文章的代码写的好复杂哦,完全看不懂