智能论文笔记

Vision Transformers with Hierarchical Attention

Yun Liu , Yu-Huan Wu , Guolei Sun , Le Zhang , Ajad Chhatkuli , Luc Van Gool

分类：计算机视觉

2021-06-06

本文解决了由多头自我注意力（MHSA）中高计算/空间复杂性引起的视觉变压器的低效率缺陷。为此，我们提出了层次MHSA（H-MHSA），其表示以层次方式计算。具体而言，我们首先将输入图像分为通常完成的补丁，每个补丁都被视为令牌。然后，拟议的H-MHSA学习本地贴片中的令牌关系，作为局部关系建模。然后，将小贴片合并为较大的贴片，H-MHSA对少量合并令牌的全局依赖性建模。最后，汇总了本地和全球专注的功能，以获得具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力，因此大大减少了计算负载。因此，H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的全局关系。使用H-MHSA模块合并，我们建立了一个基于层次的变压器网络的家族，即HAT-NET。为了证明在场景理解中HAT-NET的优越性，我们就基本视觉任务进行了广泛的实验，包括图像分类，语义分割，对象检测和实例细分。因此，HAT-NET为视觉变压器提供了新的视角。可以在https://github.com/yun-liu/hat-net上获得代码和预估计的模型。

translated by 谷歌翻译

P2T: Pyramid Pooling Transformer for Scene Understanding

Yu-Huan Wu , Yun Liu , Xin Zhan , Ming-Ming Cheng

分类：计算机视觉

2021-06-22

最近，Vision Transformer通过推动各种视觉任务的最新技术取得了巨大的成功。视觉变压器中最具挑战性的问题之一是，图像令牌的较大序列长度会导致高计算成本（二次复杂性）。解决此问题的一个流行解决方案是使用单个合并操作来减少序列长度。本文考虑如何改善现有的视觉变压器，在这种变压器中，单个合并操作提取的合并功能似乎不太强大。为此，我们注意到，由于其在上下文抽象中的强大能力，金字塔池在各种视觉任务中已被证明是有效的。但是，在骨干网络设计中尚未探索金字塔池。为了弥合这一差距，我们建议在视觉变压器中将金字塔池汇总到多头自我注意力（MHSA）中，同时降低了序列长度并捕获强大的上下文特征。我们插入了基于池的MHSA，我们构建了一个通用视觉变压器主链，称为金字塔池变压器（P2T）。广泛的实验表明，与先前的基于CNN-和基于变压器的网络相比，当将P2T用作骨干网络时，它在各种视觉任务中显示出很大的优势。该代码将在https://github.com/yuhuan-wu/p2t上发布。

translated by 谷歌翻译

Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective

Li Zhang , Sixiao Zheng , Jiachen Lu , Xinxuan Zhao , Xiatian Zhu , Yanwei Fu , Tao Xiang , Jianfeng Feng

分类：计算机视觉

2022-07-19

视觉表示学习是解决各种视力问题的关键。依靠开创性的网格结构先验，卷积神经网络（CNN）已成为大多数深视觉模型的事实上的标准架构。例如，经典的语义分割方法通常采用带有编码器编码器体系结构的完全横向卷积网络（FCN）。编码器逐渐减少了空间分辨率，并通过更大的接受场来学习更多抽象的视觉概念。由于上下文建模对于分割至关重要，因此最新的努力一直集中在通过扩张（即极度）卷积或插入注意力模块来增加接受场。但是，基于FCN的体系结构保持不变。在本文中，我们旨在通过将视觉表示学习作为序列到序列预测任务来提供替代观点。具体而言，我们部署纯变压器以将图像编码为一系列贴片，而无需局部卷积和分辨率减少。通过在变压器的每一层中建立的全球环境，可以学习更强大的视觉表示形式，以更好地解决视力任务。特别是，我们的细分模型（称为分割变压器（SETR））在ADE20K上擅长（50.28％MIOU，这是提交当天测试排行榜中的第一个位置），Pascal环境（55.83％MIOU），并在CityScapes上达到竞争成果。此外，我们制定了一个分层局部全球（HLG）变压器的家族，其特征是窗户内的本地关注和跨窗户的全球性专注于层次结构和金字塔架构。广泛的实验表明，我们的方法在各种视觉识别任务（例如，图像分类，对象检测和实例分割和语义分割）上实现了吸引力的性能。

translated by 谷歌翻译

ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

Rui Yang , Hailong Ma , Jie Wu , Yansong Tang , Xuefeng Xiao , Min Zheng , Xiu Li

分类：计算机视觉 | 人工智能

2022-03-21

香草自我注意的机制固有地依赖于预定和坚定的计算维度。这种僵化的性限制了它具有面向上下文的概括，可以带来更多的上下文提示和全球表示。为了减轻此问题，我们提出了一种可扩展的自我注意（SSA）机制，该机制利用两个缩放因素来释放查询，键和价值矩阵的维度，同时使它们不符合输入。这种可伸缩性可获得面向上下文的概括并增强对象灵敏度，从而将整个网络推向准确性和成本之间的更有效的权衡状态。此外，我们提出了一个基于窗口的自我注意事项（IWSA），该自我注意力（IWSA）通过重新合并独立的值代币并从相邻窗口中汇总空间信息来建立非重叠区域之间的相互作用。通过交替堆叠SSA和IWSA，可扩展的视觉变压器（可伸缩率）在通用视觉任务中实现最先进的性能。例如，在Imagenet-1K分类中，可伸缩率S的表现优于双胞胎-SVT-S，而Swin-T则比1.4％。

translated by 谷歌翻译

Hire-MLP: Vision MLP via Hierarchical Rearrangement

Jianyuan Guo , Yehui Tang , Kai Han , Xinghao Chen , Han Wu , Chao Xu , Chang Xu , Yunhe Wang

分类：计算机视觉

2021-08-30

先前的视觉MLP，如MLP-MILER和RESMLP接受线性扁平的图像贴片作为输入，使其对不同的输入大小和难以捕获空间信息。这种方法隐瞒了MLP与基于变压器的对应物相比，并防止它们成为计算机视觉的一般骨干。本文介绍了Hire-MLP，通过\ TextBF {Hi} reachical \ TextBF {Re}排列，这是一个简单而竞争的愿景MLP架构，其中包含两个重排级别。具体地，提出内部区域重新排列以捕获空间区域内的局部信息，并且提出横区域重新排列以使不同区域之间的信息通信能够通过沿空间方向循环地转换所有令牌来实现不同区域之间的信息通信。广泛的实验证明了Hire-MLP作为各种视觉任务的多功能骨干的有效性。特别是，Hire-MLP在图像分类，对象检测和语义分割任务上实现竞争结果，例如，在Imagenet上的83.8％的前1个精度，51.7％盒AP和Coco Val2017上的44.8％掩模AP和Ade20k上的49.9％Miou ，超越以前的基于变压器和基于MLP的型号，具有更好的折衷以获得准确性和吞吐量。代码可在https://github.com/ggjy/hire-wave-mlp.pytorch获得。

translated by 谷歌翻译

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

Wenhai Wang , Enze Xie , Xiang Li , Deng-Ping Fan , Kaitao Song , Ding Liang , Tong Lu , Ping Luo , Ling Shao

分类：

2021-02-24

ous vision tasks without convolutions, where it can be used as a direct replacement for CNN backbones. (3) We validate PVT through extensive experiments, showing that it boosts the performance of many downstream tasks, including object detection, instance and semantic segmentation. For example, with a comparable number of parameters, PVT+RetinaNet achieves 40.4 AP on the COCO dataset, surpassing ResNet50+RetinNet (36.3 AP) by 4.1 absolute AP (see Figure 2). We hope that PVT could serve as an alternative and useful backbone for pixel-level predictions and facilitate future research.

translated by 谷歌翻译

Twins: Revisiting the Design of Spatial Attention in Vision Transformers

Xiangxiang Chu , Zhi Tian , Yuqing Wang , Bo Zhang , Haibing Ren , Xiaolin Wei , Huaxia Xia , Chunhua Shen

分类：

2021-04-28

Very recently, a variety of vision transformer architectures for dense prediction tasks have been proposed and they show that the design of spatial attention is critical to their success in these tasks. In this work, we revisit the design of the spatial attention and demonstrate that a carefully devised yet simple spatial attention mechanism performs favorably against the state-of-the-art schemes. As a result, we propose two vision transformer architectures, namely, Twins-PCPVT and Twins-SVT. Our proposed architectures are highly efficient and easy to implement, only involving matrix multiplications that are highly optimized in modern deep learning frameworks. More importantly, the proposed architectures achieve excellent performance on a wide range of visual tasks including image-level classification as well as dense detection and segmentation. The simplicity and strong performance suggest that our proposed architectures may serve as stronger backbones for many vision tasks. Our Code is available at: https://git.io/Twins.

translated by 谷歌翻译

CMT: Convolutional Neural Networks Meet Vision Transformers

Jianyuan Guo , Kai Han , Han Wu , Yehui Tang , Xinghao Chen , Yunhe Wang , Chang Xu

分类：计算机视觉

2021-07-13

视觉变压器由于能够捕获图像中的长期依赖性的能力而成功地应用于图像识别任务。但是，变压器与现有卷积神经网络（CNN）之间的性能和计算成本仍然存在差距。在本文中，我们旨在解决此问题，并开发一个网络，该网络不仅可以超越规范变压器，而且可以超越高性能卷积模型。我们通过利用变压器来捕获长期依赖性和CNN来建模本地特征，从而提出了一个新的基于变压器的混合网络。此外，我们将其扩展为获得一个称为CMT的模型家族，比以前的基于卷积和基于变压器的模型获得了更好的准确性和效率。特别是，我们的CMT-S在ImageNet上获得了83.5％的TOP-1精度，而在拖鞋上的拖曳率分别比现有的DEIT和EficitiveNet小14倍和2倍。拟议的CMT-S还可以很好地概括CIFAR10（99.2％），CIFAR100（91.7％），花（98.7％）以及其他具有挑战性的视觉数据集，例如可可（44.3％地图），计算成本较小。

translated by 谷歌翻译

Vision Transformer with Deformable Attention

Zhuofan Xia , Xuran Pan , Shiji Song , Li Erran Li , Gao Huang

分类：计算机视觉

2022-01-03

变压器最近在各种视觉任务上表现出卓越的性能。大型有时甚至全球，接收领域赋予变换器模型，并通过其CNN对应物具有更高的表示功率。然而，简单地扩大接收领域也产生了几个问题。一方面，使用致密的注意，例如，在VIT中，导致过度的记忆和计算成本，并且特征可以受到超出兴趣区域的无关紧要的影响。另一方面，PVT或SWIN变压器采用的稀疏注意是数据不可知论，可能会限制模拟长距离关系的能力。为了缓解这些问题，我们提出了一种新型可变形的自我关注模块，其中以数据相关的方式选择密钥和值对中的密钥和值对的位置。这种灵活的方案使自我关注模块能够专注于相关区域并捕获更多的信息性功能。在此基础上，我们呈现可变形的关注变压器，一般骨干模型，具有可变形关注的图像分类和密集预测任务。广泛的实验表明，我们的模型在综合基准上实现了一致的改善结果。代码可在https://github.com/leaplabthu/dat上获得。

translated by 谷歌翻译

Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

Jiashi Li , Xin Xia , Wei Li , Huixia Li , Xing Wang , Xuefeng Xiao , Rui Wang , Min Zheng , Xin Pan

分类：计算机视觉

2022-07-12

由于复杂的注意机制和模型设计，大多数现有的视觉变压器（VIT）无法在现实的工业部署方案中的卷积神经网络（CNN）高效，例如张力和coreml。这提出了一个独特的挑战：可以设计视觉神经网络以与CNN一样快地推断并表现强大吗？最近的作品试图设计CNN-Transformer混合体系结构来解决这个问题，但是这些作品的整体性能远非令人满意。为了结束这些结束，我们提出了下一代视觉变压器，以在现实的工业场景中有效部署，即下一步，从延迟/准确性权衡的角度来看，它在CNN和VIT上占主导地位。在这项工作中，下一个卷积块（NCB）和下一个变压器块（NTB）分别开发出用于使用部署友好机制捕获本地和全球信息。然后，下一个混合策略（NHS）旨在将NCB和NTB堆叠在有效的混合范式中，从而提高了各种下游任务中的性能。广泛的实验表明，在各种视觉任务方面的延迟/准确性权衡方面，下一个VIT明显优于现有的CNN，VIT和CNN转换混合体系结构。在Tensorrt上，在可可检测上，Next-Vit超过5.4 MAP（从40.4到45.8），在类似延迟下，ADE20K细分的8.2％MIOU（从38.8％到47.0％）。同时，它可以与CSWIN达到可比的性能，而推理速度则以3.6倍的速度加速。在COREML上，在类似的延迟下，在COCO检测上，下一步超过了可可检测的4.6 MAP（从42.6到47.2），ADE20K分割的3.5％MIOU（从45.2％到48.7％）。代码将最近发布。

translated by 谷歌翻译

Less is More: Pay Less Attention in Vision Transformers

Zizheng Pan , Bohan Zhuang , Haoyu He , Jing Liu , Jianfei Cai

分类：计算机视觉

2021-05-29

变压器已成为深度学习中的主导架构之一，特别是计算机视觉中的卷积神经网络（CNNS）的强大替代品。然而，由于长期表示的自我关注的二次复杂性，以前作品中的变压器培训和推理可能是非常昂贵的，特别是对于高分辨率密集预测任务。为此，我们提出了一种更少的关注视觉变压器（点亮），建立在变形金刚的早期自我注意层仍然专注于当地模式并在最近的等级视觉变压器中带来轻微的益处。具体而言，我们提出了一种分层变压器，在那里我们使用纯多层的感知（MLP）来在早期阶段编码丰富的本地模式，同时应用自我注意模块来捕获更深层中的较长依赖性。此外，我们进一步提出了一种学习的可变形的令牌合并模块，以以非均匀方式自适应地熔化信息贴片。建议的点亮在图像识别任务中实现了有希望的性能，包括图像分类，对象检测和实例分段，作为许多愿景任务的强骨干。代码可用：https://github.com/zhuang-group/lit

translated by 谷歌翻译

Visual Attention Network

Meng-Hao Guo , Cheng-Ze Lu , Zheng-Ning Liu , Ming-Ming Cheng , Shi-Min Hu

分类：计算机视觉

2022-02-20

虽然最初是为自然语言处理任务而设计的，但自我发挥的机制最近逐渐席卷了各种计算机视觉领域。但是，图像的2D性质带来了在计算机视觉中应用自我注意力的三个挑战。（1）将图像作为1D序列忽略了其2D结构。（2）对于高分辨率图像而言，二次复杂性太贵了。（3）它仅捕获空间适应性，但忽略了通道适应性。在本文中，我们提出了一种新颖的线性注意力，名为“大核心注意”（LKA），以使自适应和远程相关性在自我注意力中避免其缺点。此外，我们提出了基于LKA的神经网络，即视觉注意力网络（VAN）。虽然非常简单，但范超过了相似的大小视觉变压器（VIT）和各种任务中的卷积神经网络（CNN），包括图像分类，对象检测，语义细分，泛型分割，姿势估计等。 ImageNet基准测试的精度为％，并为全景分割设置新的最先进性能（58.2 PQ）。此外，Van-B2超过Swin-T 4％MIOU（50.1 vs. 46.1），用于ADE20K基准上的语义分割，2.6％AP（48.8 vs. 46.2）在COCO数据集上进行对象检测。它为社区提供了一种新颖的方法和简单而强大的基线。代码可从https://github.com/visual-crestention-network获得。

translated by 谷歌翻译

PVT v2: Improved Baselines with Pyramid Vision Transformer

Wenhai Wang , Enze Xie , Xiang Li , Deng-Ping Fan , Kaitao Song , Ding Liang , Tong Lu , Ping Luo , Ling Shao

分类：计算机视觉

2021-06-25

Transformer最近提出了令人鼓舞的计算机视觉进展。在这项工作中，我们通过添加三个设计，包括（1）线性复杂性注意层，（2）重叠的补丁嵌入和（3）卷积进料网络，通过添加三个设计来提高原始金字塔视觉变压器（PVT V1）来展示新的基线。通过这些修改，PVT V2将PVT V1的计算复杂性降低到线性，并在类别，检测和分割等基本视觉任务上取得了重大改进。值得注意的是，所提出的PVT V2比最近的作品（例如Swin Transformer）取得了可比或更好的性能。我们希望这项工作将促进计算机视觉中最新的变压器研究。代码可在https://github.com/whai362/pvt上找到。

translated by 谷歌翻译

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

Xiaoyi Dong , Jianmin Bao , Dongdong Chen , Weiming Zhang , Nenghai Yu , Lu Yuan , Dong Chen , Baining Guo

分类：计算机视觉 | 机器学习

2021-07-01

我们介绍克斯内变压器，一种高效且有效的变压器的骨干，用于通用视觉任务。变压器设计的具有挑战性的问题是，全球自我关注来计算成本昂贵，而局部自我关注经常限制每个令牌的相互作用。为了解决这个问题，我们开发了以平行的横向和垂直条纹在水平和垂直条纹中计算自我关注的交叉形窗口自我关注机制，通过将输入特征分成相等的条纹而获得的每个条纹宽度。我们提供了条纹宽度效果的数学分析，并改变变压器网络的不同层的条纹宽度，这在限制计算成本时实现了强大的建模能力。我们还介绍了本地增强的位置编码（LEPE），比现有的编码方案更好地处理本地位置信息。 LEPE自然支持任意输入分辨率，因此对下游任务特别有效和友好。 CSWIN变压器并入其具有这些设计和分层结构，展示了普通愿景任务的竞争性能。具体来说，它在ImageNet-1K上实现了85.4 \％Top-1精度，而无需任何额外的培训数据或标签，53.9盒AP和46.4掩模AP，ADE20K语义分割任务上的52.2 Miou，超过以前的状态 - 在类似的拖鞋设置下，艺术品+1.2，+2.0，+1.4和+2.0分别为+1.2，+2.0，+1.4和+2.0。通过在较大的数据集Imagenet-21k上进行前预先预订，我们在Ave20K上实现了87.5％的成像-1K和高分性能，55.7 miou。代码和模型可在https://github.com/microsoft/cswin-transformer中找到。

translated by 谷歌翻译

ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers

Yutong Xie , Jianpeng Zhang , Yong Xia , Anton van den Hengel , Qi Wu

分类：计算机视觉

2022-08-28

尽管变形金刚已成功地从其语言建模起源过渡到基于图像的应用程序，但它们的二次计算复杂性仍然是一个挑战，尤其是对于密集的预测。在本文中，我们提出了一种基于内容的稀疏注意方法，以替代密集的自我注意力，旨在降低计算复杂性，同时保留对远程依赖性建模的能力。具体而言，我们聚集，然后汇总键和值代币，作为减少总代币计数的基于内容的方法。由此产生的聚类序列保留了原始信号的语义多样性，但可以以较低的计算成本进行处理。此外，我们进一步将聚类引导的注意力从单尺度扩展到多尺度，这有利于密集的预测任务。我们标记了提出的变压器体系结构固定，并证明它在各种视觉任务上实现了最新的性能，但计算成本较低，参数较少。例如，我们具有2270万参数的cluster小型模型可在Imagenet上实现83.2 \％TOP-1的精度。源代码和Imagenet模型将公开可用。

translated by 谷歌翻译

HTML版本

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Ze Liu , Yutong Lin , Yue Cao , Han Hu , Yixuan Wei , Zheng Zhang , Stephen Lin , Baining Guo

分类：

2021-03-25

This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as large variations in the scale of visual entities and the high resolution of pixels in images compared to words in text. To address these differences, we propose a hierarchical Transformer whose representation is computed with Shifted windows. The shifted windowing scheme brings greater efficiency by limiting self-attention computation to non-overlapping local windows while also allowing for cross-window connection. This hierarchical architecture has the flexibility to model at various scales and has linear computational complexity with respect to image size. These qualities of Swin Transformer make it compatible with a broad range of vision tasks, including image classification (87.3 top-1 accuracy on ImageNet-1K) and dense prediction tasks such as object detection (58.7 box AP and 51.1 mask AP on COCO testdev) and semantic segmentation (53.5 mIoU on ADE20K val). Its performance surpasses the previous state-of-theart by a large margin of +2.7 box AP and +2.6 mask AP on COCO, and +3.2 mIoU on ADE20K, demonstrating the potential of Transformer-based models as vision backbones. The hierarchical design and the shifted window approach also prove beneficial for all-MLP architectures. The code and models are publicly available at https://github. com/microsoft/Swin-Transformer.

translated by 谷歌翻译

Global Context Vision Transformers

Ali Hatamizadeh , Hongxu Yin , Jan Kautz , Pavlo Molchanov

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-20

我们提出了全球环境视觉变压器（GC VIT），这是一种新的结构，可增强参数和计算利用率。我们的方法利用了与本地自我注意的联合的全球自我发项模块，以有效但有效地建模长和短距离的空间相互作用，而无需昂贵的操作，例如计算注意力面罩或移动本地窗户。此外，我们通过建议在我们的体系结构中使用修改后的融合倒置残差块来解决VIT中缺乏归纳偏差的问题。我们提出的GC VIT在图像分类，对象检测和语义分割任务中实现了最新的结果。在用于分类的ImagEnet-1k数据集上，基本，小而微小的GC VIT，$ 28 $ M，$ 51 $ M和$ 90 $ M参数实现$ \ textbf {83.2 \％} $，$ \ textbf {83.9 \％} $和$ \ textbf {84.4 \％} $ top-1的精度，超过了相当大的先前艺术，例如基于CNN的Convnext和基于VIT的Swin Transformer，其优势大大。在对象检测，实例分割和使用MS Coco和ADE20K数据集的下游任务中，预训练的GC VIT主机在对象检测，实例分割和语义分割的任务中始终如一地超过事务，有时是通过大余量。可在https://github.com/nvlabs/gcvit上获得代码。

translated by 谷歌翻译

TRT-ViT: TensorRT-oriented Vision Transformer

Xin Xia , Jiashi Li , Jie Wu , Xing Wang , Xuefeng Xiao , Min Zheng , Rui Wang

分类：计算机视觉

2022-05-19

我们从实际应用的角度重新审视了现有的出色变压器。他们中的大多数甚至不如基本的重新连接系列效率那么高，并且偏离了现实的部署方案。这可能是由于当前的标准测量计算效率，例如FLOPS或参数是单方面的，次优的和对硬件的不敏感的。因此，本文直接将特定硬件的紧张延迟视为效率指标，该指标提供了涉及计算能力，内存成本和带宽的更全面的反馈。基于一系列受控实验，这项工作为面向浓度和部署的网络设计提供了四个实用指南，例如，在阶段级别，早期的变压器和晚期CNN，在Block Level的早期CNN和Late Transformer。因此，提出了一个面向Tensortrt的变压器家族，缩写为TRT-VIT。广泛的实验表明，在不同的视觉任务（例如，图像分类，对象检测和语义细分）方面，TRT-VIT显着优于现有的Convnet和视觉变压器。例如，在82.7％的Imagenet-1k Top-1精度下，TRT-VIT比CSWIN快2.7 $ \ times $，比双胞胎快2.0 $ \ times $。在MS-COCO对象检测任务上，TRT-VIT与双胞胎达到可比的性能，而推理速度则增加了2.8 $ \ times $。

translated by 谷歌翻译

PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid Architecture

Kai Han , Jianyuan Guo , Yehui Tang , Yunhe Wang

分类：计算机视觉

2022-01-04

变压器网络对计算机视觉任务取得了很大的进步。变压器 - 变压器（TNT）架构利用内部变压器和外部变压器提取本地和全局表示。在这项工作中，我们通过引入两个先进的设计：1）金字塔架构和2）卷积阀。通过建立分层表示，新的“金字塔”显着改善了原始TNT。Pyramidtnt比以前的最先进的视觉变压器（如Swin Transformer）实现更好的表演。我们希望这一新基线能够有助于视觉变压器的进一步研究和应用。代码将在https://github.com/huawei-noah/cv-backbones/tree/master/tnt_pytorch获得。

translated by 谷歌翻译

Shunted Self-Attention via Multi-Scale Token Aggregation

Sucheng Ren , Daquan Zhou , Shengfeng He , Jiashi Feng , Xinchao Wang

分类：计算机视觉

2021-11-30

近期视觉变压器〜（VIT）模型在各种计算机视觉任务中展示了令人鼓舞的结果，因为他们的竞争力通过自我关注建模图像补丁或令牌的长距离依赖性。然而，这些模型通常指定每层中每个令牌特征的类似场景。这种约束不可避免地限制了每个自我注意层在捕获多尺度特征中的能力，从而导致处理具有不同尺度的多个对象的图像的性能下降。为了解决这个问题，我们提出了一种新颖和通用的策略，称为分流的自我关注〜（SSA），它允许VITS为每个关注层的混合秤的关注进行模拟。 SSA的关键概念是将异构接收领域的尺寸注入令牌：在计算自我注意矩阵之前，它选择性地合并令牌以表示较大的对象特征，同时保持某些令牌以保持细粒度的特征。这种新颖的合并方案能够自我注意，以了解具有不同大小的对象之间的关系，并同时降低令牌数字和计算成本。各种任务的广泛实验表明了SSA的优越性。具体而言，基于SSA的变压器实现了84.0 \％的前1个精度，并且在ImageNet上占据了最先进的焦距变压器，只有一半的模型尺寸和计算成本，并且在Coco上超过了焦点变压器1.3映射2.9 MIOU在ADE20K上类似参数和计算成本。代码已在https://github.com/oliverrensu/shunted-transformer发布。

translated by 谷歌翻译