智能论文笔记

Pre-Training Transformers for Domain Adaptation

Burhan Ul Tayyab , Nicholas Chua

分类：计算机视觉

2021-12-18

Visual域适应挑战2021称为无监督域适配方法，可以通过将从源数据集的知识传输到分发外目标数据集来改善模型的性能。在本文中，我们利用Beit [1]并展示其从源数据集中捕获密钥属性的能力，并以半监督方式将其应用于目标数据集。我们的方法能够优于最新的最先进（SOTA）技术，并且能够在Visda领域适应挑战中实现第1位，ACC为56.29％，Auroc为69.79％。

translated by 谷歌翻译

BEiT: BERT Pre-Training of Image Transformers

Hangbo Bao , Li Dong , Songhao Piao , Furu Wei

分类：计算机视觉 | 机器学习

2021-06-15

我们引入了一个自我监督的视觉表示模型BEIT，该模型代表来自图像变压器的双向编码器表示。在Bert在自然语言处理区域中开发后，我们提出了一项掩盖的图像建模任务，以预识视觉变压器。具体而言，每个图像在我们的预训练中具有两个视图，即图像贴片（例如16x16像素）和视觉令牌（即离散令牌）。我们首先将原始图像“将”“令牌化”到视觉令牌中。然后，我们随机掩盖了一些图像补丁并将其喂入骨干变压器中。预训练的目标是根据损坏的图像补丁恢复原始的视觉令牌。在预训练BEIT之后，我们通过将任务层附加在预审计的编码器上，直接通过将任务层附加到下游任务上的模型参数。图像分类和语义分割的实验结果表明，我们的模型通过以前的预训练方法实现了竞争结果。例如，基本大小的BEIT在Imagenet-1K上获得了83.2％的TOP-1精度，并以相同的设置优于划痕DEIT训练（81.8％）。此外，大尺寸的BEIT仅使用Imagenet-1K获得86.3％，即使在Imagenet-22K上进行预训练（85.2％），甚至超过了VIT-L。代码和预估计的模型可在https://aka.ms/beit上找到。

translated by 谷歌翻译

SiT: Self-supervised vIsion Transformer

Sara Atito , Muhammad Awais , Josef Kittler

分类：计算机视觉 | 机器学习

2021-04-08

由于其最近在减少监督学习的差距方面取得了成功，自我监督的学习方法正在增加计算机愿景的牵引力。在自然语言处理（NLP）中，自我监督的学习和变形金刚已经是选择的方法。最近的文献表明，变压器也在计算机愿景中越来越受欢迎。到目前为止，当使用大规模监督数据或某种共同监督时，视觉变压器已被证明可以很好地工作。在教师网络方面。这些监督的普试视觉变压器在下游任务中实现了非常好的变化，变化最小。在这项工作中，我们调查自我监督学习的预用图像/视觉变压器，然后使用它们进行下游分类任务的优点。我们提出了自我监督的视觉变压器（坐在）并讨论了几种自我监督的培训机制，以获得借口模型。静坐的架构灵活性允许我们将其用作自动统计器，并无缝地使用多个自我监控任务。我们表明，可以在小规模数据集上进行预训练，以便在小型数据集上进行下游分类任务，包括几千个图像而不是数百万的图像。使用公共协议对所提出的方法进行评估标准数据集。结果展示了变压器的强度及其对自我监督学习的适用性。我们通过大边缘表现出现有的自我监督学习方法。我们还观察到坐着很好，很少有镜头学习，并且还表明它通过简单地训练从坐的学到的学习功能的线性分类器来学习有用的表示。预先训练，FineTuning和评估代码将在以下：https://github.com/sara-ahmed/sit。

translated by 谷歌翻译

BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

Zhiliang Peng , Li Dong , Hangbo Bao , Qixiang Ye , Furu Wei

分类：计算机视觉

2022-08-12

蒙版图像建模（MIM）通过恢复损坏的图像补丁，在自我监督的表示学习中表现出了令人印象深刻的结果。但是，大多数方法仍在低级图像像素上运行，这阻碍了对表示模型的高级语义的开发。在这项研究中，我们建议将富含语义的视觉令牌用作掩盖预测的重建目标，从而提供了一种系统的方式来促进MIM从像素级到语义级别。具体而言，我们引入了矢量定量的知识蒸馏以训练令牌仪，该蒸馏器将连续的语义空间离散为紧凑的代码。然后，我们通过预测掩盖图像贴片的原始视觉令牌来预处理变压器。此外，我们鼓励该模型将补丁信息明确汇总到全局图像表示中，该图像表示该设施线性探测。图像分类和语义分割的实验表明，我们的方法优于所有方法比较MIM方法。在ImagEnet-1K（224尺寸）上，基本大小的BEIT V2可实现85.5％的top-1精度，用于微调和80.1％的线性探测的TOP-1精度。大尺寸的BEIT V2获得了ImagEnet-1K（224尺寸）微调的最高1个TOP-1精度，用于语义分割的ADE20K上获得了56.7％MIOU。代码和预估计的模型可在https://aka.ms/beit上找到。

translated by 谷歌翻译

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Alexey Dosovitskiy , Lucas Beyer , Alexander Kolesnikov , Dirk Weissenborn , Xiaohua Zhai , Thomas Unterthiner , Mostafa Dehghani , Matthias Minderer , Georg Heigold , Sylvain Gelly

分类：

2020-10-22

While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small image recognition benchmarks (ImageNet, CIFAR-100, VTAB, etc.), Vision Transformer (ViT) attains excellent results compared to state-of-the-art convolutional networks while requiring substantially fewer computational resources to train. 1

translated by 谷歌翻译

SB-SSL: Slice-Based Self-Supervised Transformers for Knee Abnormality Classification from MRI

Sara Atito , Syed Muhammad Anwar , Muhammad Awais , Josef Kitler

分类：计算机视觉 | 机器学习

2022-08-29

在为医疗保健领域开发监督的机器学习解决方案时，具有高质量地面真实标签的大规模数据的可用性是一个挑战。尽管临床工作流程中的数字数据量正在增加，但大多数数据都分布在临床站点上并受到保护以确保患者隐私。放射学读数和处理大型临床数据给可用资源带来了重大负担，这是机器学习和人工智能发挥关键作用的地方。用于肌肉骨骼（MSK）诊断的磁共振成像（MRI）是一个例子，其中扫描具有大量信息，但需要大量时间阅读和标记。自我监督的学习（SSL）可以是处理缺乏地面真相标签的解决方案，但通常需要在训练阶段进行大量培训数据。本文中，我们提出了一个基于切片的自制深度学习框架（SB-SSL），这是一种基于切片的新型范式，用于使用膝盖MRI扫描对异常进行分类。我们表明，在有限数量的情况下（<1000），我们提出的框架能够以89.17％的精度识别前交叉韧带撕裂，而AUC为0.954，不超过最先进的情况，而无需使用外部数据。在训练期间。这表明我们提出的框架适用于有限的数据制度中的SSL。

translated by 谷歌翻译

Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling

Xumin Yu , Lulu Tang , Yongming Rao , Tiejun Huang , Jie Zhou , Jiwen Lu

分类：计算机视觉 | 人工智能 | 机器学习

2021-11-29

我们呈现Point-Bert，一种用于学习变压器的新范式，以概括BERT对3D点云的概念。灵感来自BERT，我们将屏蔽点建模（MPM）任务设计为预列火车点云变压器。具体地，我们首先将点云划分为几个本地点修补程序，并且具有离散变化性AutoEncoder（DVAE）的点云标记器被设计为生成包含有意义的本地信息的离散点令牌。然后，我们随机掩盖了一些输入点云的补丁并将它们送入骨干变压器。预训练目标是在销售器获得的点代币的监督下恢复蒙面地点的原始点令牌。广泛的实验表明，拟议的BERT风格的预训练策略显着提高了标准点云变压器的性能。配备了我们的预培训策略，我们表明，纯变压器架构对ModelNet40的准确性为93.8％，在ScanObjectnn的最艰难的设置上的准确性为83.1％，超越精心设计的点云模型，手工制作的设计更少。我们还证明，Point-Bert从新的任务和域中获悉的表示，我们的模型在很大程度上推动了几个射击点云分类任务的最先进。代码和预先训练的型号可在https://github.com/lulutang0608/pint -bert上获得

translated by 谷歌翻译

PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers

Xiaoyi Dong , Jianmin Bao , Ting Zhang , Dongdong Chen , Weiming Zhang , Lu Yuan , Dong Chen , Fang Wen , Nenghai Yu

分类：计算机视觉 | 机器学习

2021-11-24

本文探讨了贝尔视觉变压器预训练的更好的码本。最近的工作成功地转移了从NLP到视野领域的BERT预训练。它直接采用一个简单的离散VAE作为视觉销售器，但尚未考虑由此产生的视觉令牌的语义水平。相比之下，NLP字段中的离散令牌是自然的高度语义。这种差异激励我们学习一个感知码本。我们惊奇地找到了一个简单而有效的想法：在DVAE训练期间强制执行感知相似性。我们证明，所提出的感知码本生成的视觉令牌确实表现出更好的语义含义，随后有助于预训练在各种下游任务中实现卓越的转移性能。例如，我们在Imagenet-1K上实现了84.5前1个精度，vit-B骨干，优于竞争方法Beit +1.3，具有相同的训练纪元。它还可以通过+1.3框AP和+1.0掩模AP，在ADE20K上的语义细分，在ADE20K上提高对象检测和分割任务的性能，+1.0 miou，代码和型号将在\ url {https：// github.com/microsoft/peco}。

translated by 谷歌翻译

MC-SSL0.0: Towards Multi-Concept Self-Supervised Learning

Sara Atito , Muhammad Awais , Ammarah Farooq , Zhenhua Feng , Josef Kittler

分类：计算机视觉 | 机器学习

2021-11-30

自我监督的预制是自然语言处理模型的首选方法，在许多愿景任务中迅速获得普及。最近，自我监督的预借鉴已经显示出胜过许多下游视觉应用的预测，标志着该地区的里程碑。这种优越性归因于传达多个概念的训练图像的不完全标记的负面影响，而是使用单个主要类标签进行注释。虽然自我监督的学习（SSL）原则上没有这种限制，但促进SSL的借口任务的选择是通过向单个概念输出驱动学习过程来实现这种缺点。本研究旨在调查在不使用标签的情况下建模图像中存在的所有概念的可能性。在这方面，所提出的SSL帧工作MC-SSL0.0是迈向多概念自我监督学习（MC-SSL）的步骤，其超出了在图像中建模的单一主导标签，以有效地利用来自所有概念的所有概念在里面。 MC-SSL0.0由两个核心设计概念，组屏蔽模型学习和学习伪概念，用于使用势头（教师学生）框架的数据令牌。多标签和多类图像分类下游任务的实验结果表明，MC-SSL0.0不仅超越了现有的SSL方法，而且超越了监督转移学习。源代码将公开可供社区培训更大的语料库。

translated by 谷歌翻译

mc-BEiT: Multi-choice Discretization for Image BERT Pre-training

Xiaotong Li , Yixiao Ge , Kun Yi , Zixuan Hu , Ying Shan , Ling-Yu Duan

分类：计算机视觉

2022-03-29

图像BERT使用掩盖图像建模（MIM）预训练成为应对自我监督的表示学习的一种流行实践。一项开创性的作品将MIM作为一个视觉词汇作为分类任务，将连续的视觉信号用于离散的视觉令牌，并使用预先学习的DVAE将其标记为离散的视觉令牌。尽管有可行的解决方案，但不当离散化仍阻碍了图像预训练的进一步改善。由于图像离散化没有基本真相的答案，因此我们认为，即使可以获得更好的``令牌'''，也不应使用唯一的令牌ID分配蒙面的补丁。在这项工作中，我们引入了改进的BERT风格图像预训练方法，即MC-BEIT，该方法执行MIM代理任务，以放松和精致的多选择培训目标。 Specifically, the multi-choice supervision for the masked image patches is formed by the soft probability vectors of the discrete token ids, which are predicted by the off-the-shelf image ``tokenizer'' and further refined by high-level inter-补丁感知诉诸于观察到类似的补丁应该分享其选择。关于分类，分割和检测任务的广泛实验证明了我们方法的优势，例如，预先培训的VIT-B在Imagenet-1K分类上达到了84.1％的TOP-1微调精度，49.2％AP^B和44.0％对象检测和可可的实例分割的AP^m，在ADE20K语义分段上为50.8％，表现优于竞争性对应物。该代码将在https://github.com/lixiaotong97/mc-beit上找到。

translated by 谷歌翻译

Exploring Stochastic Autoregressive Image Modeling for Visual Representation

Yu Qi , Fan Yang , Yousong Zhu , Yufei Liu , Liwei Wu , Rui Zhao , Wei Li

分类：计算机视觉 | 人工智能

2022-12-03

Autoregressive language modeling (ALM) have been successfully used in self-supervised pre-training in Natural language processing (NLP). However, this paradigm has not achieved comparable results with other self-supervised approach in computer vision (e.g., contrastive learning, mask image modeling). In this paper, we try to find the reason why autoregressive modeling does not work well on vision tasks. To tackle this problem, we fully analyze the limitation of visual autoregressive methods and proposed a novel stochastic autoregressive image modeling (named SAIM) by the two simple designs. First, we employ stochastic permutation strategy to generate effective and robust image context which is critical for vision tasks. Second, we create a parallel encoder-decoder training process in which the encoder serves a similar role to the standard vision transformer focus on learning the whole contextual information, and meanwhile the decoder predicts the content of the current position, so that the encoder and decoder can reinforce each other. By introducing stochastic prediction and the parallel encoder-decoder, SAIM significantly improve the performance of autoregressive image modeling. Our method achieves the best accuracy (83.9%) on the vanilla ViT-Base model among methods using only ImageNet-1K data. Transfer performance in downstream tasks also show that our model achieves competitive performance.

translated by 谷歌翻译

Adapting Self-Supervised Vision Transformers by Probing Attention-Conditioned Masking Consistency

Viraj Prabhu , Sriram Yenamandra , Aaditya Singh , Judy Hoffman

分类：计算机视觉 | 机器学习

2022-06-16

视觉域的适应性（DA）试图将经过训练的模型转移到分发转移的未看到的，未标记的域，但是方法通常着重于适应卷积神经网络体系结构，并使用有监督的成像网表示。在这项工作中，我们将重点转移到将现代体系结构改编成对象识别的重点 - 越来越流行的视觉变压器（VIT）以及基于自我监督的学习（SSL）的现代预测。受到最新SSL方法的启发，该方法是基于通过掩盖或裁剪生成的部分图像输入的学习的 - 要么通过学习预测缺失的像素或学习代表性的不断增强来进行这种增强 - 我们提出了简单的两阶段适应性PACMAC自我监督VIT的算法。 PACMAC首先在汇总源和目标数据上执行内域SSL，以学习任务歧视性特征，然后探究该模型的预测一致性，这些歧视性的一致性是通过新的注意力条件掩盖策略生成的一组部分目标输入，以识别自我候选者的可靠候选者-训练。我们的简单方法导致对使用VIT和对标准对象识别基准的自我监督初始化的竞争方法的性能一致。可在https://github.com/virajprabhu/pacmac上找到代码

translated by 谷歌翻译

MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning

Jihao Liu , Xin Huang , Osamu Yoshie , Yu Liu , Hongsheng Li

分类：计算机视觉

2022-05-26

在这项研究中，我们提出了混合图像建模（MixMim），这是一种适用于各种分层视觉变压器的简单但有效的MIM方法。现有的MIM方法用特殊的掩码符号替换输入令牌的随机子集，并旨在从损坏的图像中重建原始图像令牌。但是，我们发现，由于较大的掩蔽率（例如，Beit中的40％），使用蒙版符号会大大减慢训练并引起训练 - 不一致的不一致。相比之下，我们用另一个图像的可见令牌（即创建混合图像）代替一个图像的蒙版令牌。然后，我们进行双重重建以从混合输入中重建原始的两个图像，从而显着提高效率。虽然MixMim可以应用于各种体系结构，但本文探讨了更简单但更强的层次变压器，并使用MixMim -B，-L和-H缩放。经验结果表明，混合mim可以有效地学习高质量的视觉表示。值得注意的是，具有88M参数的MixMIM-B通过预处理600个时期的Imagenet-1k上的TOP-1精度达到了85.1％的TOP-1精度，在MIM方法中为具有可比模型尺寸（例如VIT-B）的神经网络创造了新的记录。此外，其在其他6个数据集上的传输性能显示MixMim比以前的MIM方法更好。代码可从https://github.com/sense-x/mixmim获得。

translated by 谷歌翻译

What to Hide from Your Students: Attention-Guided Masked Image Modeling

Ioannis Kakogeorgiou , Spyros Gidaris , Bill Psomas , Yannis Avrithis , Andrei Bursuc , Konstantinos Karantzalos , Nikos Komodakis

分类：计算机视觉

2022-03-23

变形金刚和蒙版语言建模在计算机视觉中很快被视为视觉变压器和蒙版图像建模（MIM）。在这项工作中，我们认为由于图像中令牌的数量和相关性，图像令牌掩盖与文本中的令牌掩盖有所不同。特别是，为了为MIM产生具有挑战性的借口任务，我们主张从随机掩盖到知情掩盖的转变。我们在基于蒸馏的MIM的背景下开发并展示了这一想法，其中教师变压器编码器生成了一个注意力图，我们用它来指导学生为学生指导掩盖。因此，我们引入了一种新颖的掩蔽策略，称为注意引导蒙版（ATTMASK），我们证明了其对基于密集蒸馏的MIM以及基于普通蒸馏的自然剥离的自助力学习的有效性。我们确认ATTMASK可以加快学习过程，并提高各种下游任务的性能。我们在https://github.com/gkakogeorgiou/attmask上提供实现代码。

translated by 谷歌翻译

DiT: Self-supervised Pre-training for Document Image Transformer

Junlong Li , Yiheng Xu , Tengchao Lv , Lei Cui , Cha Zhang , Furu Wei

分类：计算机视觉

2022-03-04

图像变压器最近使用监督（VIT，DEIT等）或自我监督（BEIT，MAE等）预训练技术取得了显着的自然图像理解进展。在本文中，我们提出了\ textbf {dit}，一种自我保护的预训练\ textbf {d} ocument \ textbf {i} mage \ textbf {t} ransformer模型，使用大规模的不尺度的文本图像用于文档AI任务，这是必不可少的，因为由于缺乏人类标记的文档图像，因此没有受到监督的同行。我们将DIT作为骨干网络在各种基于视觉的文档AI任务中，包括文档图像分类，文档布局分析，表检测以及OCR的文本检测。实验结果表明，自我监管的预训练的DIT模型可在这些下游任务上实现新的最新结果，例如文档图像分类（91.11 $ \ rightarrow $ 92.69），文档布局分析（91.0 $ \ rightArow $ 94.9），表检测（94.23 $ \ rightArrow $ 96.55）和OCR的文本检测（93.07 $ \ rightarrow $ 94.29）。代码和预培训模型可在\ url {https://aka.ms/msdit}上公开获得。

translated by 谷歌翻译

Are Large-scale Datasets Necessary for Self-Supervised Pre-training?

Alaaeldin El-Nouby , Gautier Izacard , Hugo Touvron , Ivan Laptev , Hervé Jegou , Edouard Grave

分类：计算机视觉

2021-12-20

大规模数据集的预培训模型，如想象成，是计算机视觉中的标准实践。此范例对于具有小型培训套的任务特别有效，其中高容量模型往往会过度装备。在这项工作中，我们考虑一个自我监督的预训练场景，只能利用目标任务数据。我们考虑数据集，如斯坦福汽车，草图或可可，这是比想象成小的数量的顺序。我们的研究表明，在本文中介绍的Beit或诸如Beit或Variant的去噪对预训练数据的类型和大小比通过比较图像嵌入来训练的流行自我监督方法更加强大。我们获得了竞争性能与ImageNet预训练相比，来自不同域的各种分类数据集。在Coco上，当专注于使用Coco Images进行预训练时，检测和实例分割性能超过了可比设置中的监督Imagenet预训练。

translated by 谷歌翻译

SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners

Feng Liang , Yangguang Li , Diana Marculescu

分类：计算机视觉 | 机器学习

2022-05-28

最近，自我监督的蒙面自动编码器（MAE）因其令人印象深刻的表示能力而引起了前所未有的关注。但是，借口任务是掩盖的图像建模（MIM），重建缺失的本地贴片，缺乏对图像的全局理解。本文通过添加有监督的分类部门将MAE扩展到了完全监督的环境，从而使Mae可以从Golden Labels中有效地学习全球功能。所提出的监督MAE（Supmae）仅利用图像贴片的可见子集进行分类，这与使用所有图像贴片的标准监督预训练不同。通过实验，我们证明了Supmae不仅更有效地训练，而且还学会了更健壮和可转移的功能。具体而言，Supmae在使用VIT-B/16模型的ImageNet上评估时仅使用30％的计算来实现MAE的可比性。 Supmae对ImageNet变体的鲁棒性和转移学习绩效优于MAE和标准监督前培训对手。代码将公开可用。

translated by 谷歌翻译

Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction

Jun Chen , Ming Hu , Boyang Li , Mohamed Elhoseiny

分类：计算机视觉

2022-06-01

对计算机视觉的自我监督学习取得了巨大的进步，并改善了许多下游视觉任务，例如图像分类，语义细分和对象检测。其中，诸如MAE和Beit之类的生成性自我监督的视力学习方法显示出令人鼓舞的表现。但是，它们的全球掩盖重建机制在计算上是要求的。为了解决这个问题，我们提出了本地蒙版重建（LOMAR），这是一种简单而有效的方法，在一个简单的变压器编码器上的7 $ \ times $ 7补丁中执行蒙版重建，从而提高了效率和准确性之间的权衡。在整个图像上全局掩盖重建。广泛的实验表明，Lomar在Imagenet-1K分类方面达到了84.1％的TOP-1准确性，优于MAE的MAE比0.5％。在以384 $ \ times $ 384的图像为审计的LOMAR进行了预审经后，它可以达到85.4％的TOP-1准确性，超过MAE的0.6％。在MS Coco上，Lomar在0.5 $ \ text {ap}^\ text {box} $上以0.5 $ \ text {ap}^\ text {box} $的优势在对象检测上和0.5 $ \ text {ap}^\ text^\ text {bask} $上的实例段上。 Lomar在预处理的高分辨率图像上特别有效，例如，它比MAE快3.1 $ \ times $，分类准确性为448 $ \ times $ 448 $ 448。这种本地掩盖的重建学习机制可以轻松地集成到任何其他生成的自我监督学习方法中。我们的代码可在https://github.com/junchen14/lomar中公开获得。

translated by 谷歌翻译

Masked Autoencoders in 3D Point Cloud Representation Learning

Jincen Jiang , Xuequan Lu , Lizhi Zhao , Richard Dazeley , Meili Wang

分类：计算机视觉

2022-07-04

基于变压器的自我监督表示方法学习方法从未标记的数据集中学习通用功能，以提供有用的网络初始化参数，用于下游任务。最近，基于掩盖3D点云数据的局部表面斑块的自我监督学习的探索还不足。在本文中，我们提出了3D点云表示学习中的蒙版自动编码器（缩写为MAE3D），这是一种新颖的自动编码范式，用于自我监督学习。我们首先将输入点云拆分为补丁，然后掩盖其中的一部分，然后使用我们的补丁嵌入模块提取未掩盖的补丁的功能。其次，我们采用贴片的MAE3D变形金刚学习点云补丁的本地功能以及补丁之间的高级上下文关系，并完成蒙版补丁的潜在表示。我们将点云重建模块与多任务损失一起完成，从而完成不完整的点云。我们在Shapenet55上进行了自我监督的预训练，并使用点云完成前文本任务，并在ModelNet40和ScanObjectnn（PB \ _t50 \ _RS，最难的变体）上微调预训练的模型。全面的实验表明，我们的MAE3D从Point Cloud补丁提取的本地功能对下游分类任务有益，表现优于最先进的方法（$ 93.4 \％\％\％\％$和$ 86.2 \％$ $分类精度）。

translated by 谷歌翻译

Good helper is around you: Attention-driven Masked Image Modeling

Jie Gui , Zhengqi Liu , Hao Luo

分类：计算机视觉 | 机器学习

2022-11-28

It has been witnessed that masked image modeling (MIM) has shown a huge potential in self-supervised learning in the past year. Benefiting from the universal backbone vision transformer, MIM learns self-supervised visual representations through masking a part of patches of the image while attempting to recover the missing pixels. Most previous works mask patches of the image randomly, which underutilizes the semantic information that is beneficial to visual representation learning. On the other hand, due to the large size of the backbone, most previous works have to spend much time on pre-training. In this paper, we propose \textbf{Attention-driven Masking and Throwing Strategy} (AMT), which could solve both problems above. We first leverage the self-attention mechanism to obtain the semantic information of the image during the training process automatically without using any supervised methods. Masking strategy can be guided by that information to mask areas selectively, which is helpful for representation learning. Moreover, a redundant patch throwing strategy is proposed, which makes learning more efficient. As a plug-and-play module for masked image modeling, AMT improves the linear probing accuracy of MAE by $2.9\% \sim 5.9\%$ on CIFAR-10/100, STL-10, Tiny ImageNet, and ImageNet-1K, and obtains an improved performance with respect to fine-tuning accuracy of MAE and SimMIM. Moreover, this design also achieves superior performance on downstream detection and segmentation tasks.

translated by 谷歌翻译