智能论文笔记

Adapting Self-Supervised Vision Transformers by Probing Attention-Conditioned Masking Consistency

Viraj Prabhu , Sriram Yenamandra , Aaditya Singh , Judy Hoffman

分类：计算机视觉 | 机器学习

2022-06-16

视觉域的适应性（DA）试图将经过训练的模型转移到分发转移的未看到的，未标记的域，但是方法通常着重于适应卷积神经网络体系结构，并使用有监督的成像网表示。在这项工作中，我们将重点转移到将现代体系结构改编成对象识别的重点 - 越来越流行的视觉变压器（VIT）以及基于自我监督的学习（SSL）的现代预测。受到最新SSL方法的启发，该方法是基于通过掩盖或裁剪生成的部分图像输入的学习的 - 要么通过学习预测缺失的像素或学习代表性的不断增强来进行这种增强 - 我们提出了简单的两阶段适应性PACMAC自我监督VIT的算法。 PACMAC首先在汇总源和目标数据上执行内域SSL，以学习任务歧视性特征，然后探究该模型的预测一致性，这些歧视性的一致性是通过新的注意力条件掩盖策略生成的一组部分目标输入，以识别自我候选者的可靠候选者-训练。我们的简单方法导致对使用VIT和对标准对象识别基准的自我监督初始化的竞争方法的性能一致。可在https://github.com/virajprabhu/pacmac上找到代码

translated by 谷歌翻译

AUGCO: Augmentation Consistency-guided Self-training for Source-free Domain Adaptive Semantic Segmentation

Viraj Prabhu , Shivam Khare , Deeksha Kartik , Judy Hoffman

分类：计算机视觉 | 机器学习

2021-07-21

域自适应语义分割的大多数现代方法依赖于适应期间继续访问源数据，这可能是由于计算或隐私约束而不可行的。我们专注于对语义分割的无源域适应，其中源模型必须仅为仅给出未标记的目标数据给出的新目标域。我们提出了增强一致性引导的自我培训（ATHCO），一种无源适应算法，它使用模型的像素级预测一致性，各种目标图像的自动生成的视图以及模型置信度来识别可靠的像素预测，并选择性地那些人的自动训练。ATHCO在三个标准基准测试中实现最先进的结果，以便在语义分割中的3个标准基准，所有内部都在实现和快速收敛方法中。

translated by 谷歌翻译

Source Data-absent Unsupervised Domain Adaptation through Hypothesis Transfer and Labeling Transfer

Jian Liang , Dapeng Hu , Yunbo Wang , Ran He , Jiashi Feng

分类：计算机视觉 | 机器学习

2020-12-14

无监督域适应（UDA）旨在将知识从相关但不同的良好标记的源域转移到新的未标记的目标域。大多数现有的UDA方法需要访问源数据，因此当数据保密而不相配在隐私问题时，不适用。本文旨在仅使用培训的分类模型来解决现实设置，而不是访问源数据。为了有效地利用适应源模型，我们提出了一种新颖的方法，称为源假设转移（拍摄），其通过将目标数据特征拟合到冻结源分类模块（表示分类假设）来学习目标域的特征提取模块。具体而言，拍摄挖掘出于特征提取模块的信息最大化和自我监督学习，以确保目标特征通过同一假设与看不见的源数据的特征隐式对齐。此外，我们提出了一种新的标签转移策略，它基于预测的置信度（标签信息），然后采用半监督学习来将目标数据分成两个分裂，然后提高目标域中的较为自信预测的准确性。如果通过拍摄获得预测，我们表示标记转移为拍摄++。关于两位数分类和对象识别任务的广泛实验表明，拍摄和射击++实现了与最先进的结果超越或相当的结果，展示了我们对各种视域适应问题的方法的有效性。代码可用于\ url {https：//github.com/tim-learn/shot-plus}。

translated by 谷歌翻译

Concurrent Subsidiary Supervision for Unsupervised Source-Free Domain Adaptation

Jogendra Nath Kundu , Suvaansh Bhambri , Akshay Kulkarni , Hiran Sarkar , Varun Jampani , R. Venkatesh Babu

分类：计算机视觉 | 机器学习

2022-07-27

无监督的域适应性（DA）中的主要挑战是减轻源域和目标域之间的域移动。先前的DA工作表明，可以使用借口任务来通过学习域不变表示来减轻此域的转移。但是，实际上，我们发现大多数现有的借口任务对其他已建立的技术无效。因此，我们从理论上分析了如何以及何时可以利用子公司借口任务来协助给定DA问题的目标任务并制定客观的子公司任务适用性标准。基于此标准，我们设计了一个新颖的贴纸干预过程和铸造贴纸分类的过程，作为监督的子公司DA问题，该问题与目标任务无监督的DA同时发生。我们的方法不仅改善了目标任务适应性能，而且还促进了面向隐私的无源DA，即没有并发源目标访问。标准Office-31，Office-Home，Domainnet和Visda基准的实验证明了我们对单源和多源无源DA的优势。我们的方法还补充了现有的无源作品，从而实现了领先的绩效。

translated by 谷歌翻译

Test-Time Adaptation for Visual Document Understanding

Sayna Ebrahimi , Sercan O. Arik , Tomas Pfister

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-15

自我监督的预审查能够为各种视觉文档理解（VDU）任务产生可转移的表示。但是，尚未研究此类表示在测试时间时适应新分配变化的能力。我们提出了Docta，这是一种用于文档的新型测试时间适应方法，该方法通过掩盖的视觉语言建模来利用交叉模式自我观察学习以及伪标签，以适应\ textit {source}域中学习的模型，以使其{source}域中为一个未标记的\ textit {textit {目标}域在测试时间。我们还使用现有的公共数据集介绍了新的基准测试，用于各种VDU任务，包括实体识别，键值提取和文档视觉问题回答任务，其中Doctta将源模型性能提高到1.79 \％（F1分数），3.43 \％（3.43 \％）（F1得分）和17.68 \％（ANLS得分），同时大大降低了目标数据的校准误差。

translated by 谷歌翻译

Making the Best of Both Worlds: A Domain-Oriented Transformer for Unsupervised Domain Adaptation

Wenxuan Ma , Jinming Zhang , Shuang Li , Chi Harold Liu , Yulin Wang , Wei Li

分类：计算机视觉

2022-08-02

关于无监督的域适应性（UDA）的广泛研究已将有限的实验数据集深入学习到现实世界中无约束的领域。大多数UDA接近通用嵌入空间中的对齐功能，并将共享分类器应用于目标预测。但是，由于当域差异很大时可能不存在完全排列的特征空间，因此这些方法受到了两个局限性。首先，由于缺乏目标标签监督，强制域的比对会恶化目标域的可区分性。其次，源监督分类器不可避免地偏向源数据，因此它在目标域中的表现可能不佳。为了减轻这些问题，我们建议在两个集中在不同领域的空间中同时进行特征对齐，并为每个空间创建一个针对该域的面向域的分类器。具体而言，我们设计了一个面向域的变压器（DOT），该变压器（DOT）具有两个单独的分类令牌，以学习不同的面向域的表示形式和两个分类器，以保持域的可区分性。理论保证的基于对比度的对齐和源指导的伪标签细化策略被用来探索域名和特定信息。全面的实验验证了我们的方法在几个基准上实现了最先进的方法。

translated by 谷歌翻译

MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation

Lukas Hoyer , Dengxin Dai , Haoran Wang , Luc Van Gool

分类：计算机视觉

2022-12-02

In unsupervised domain adaptation (UDA), a model trained on source data (e.g. synthetic) is adapted to target data (e.g. real-world) without access to target annotation. Most previous UDA methods struggle with classes that have a similar visual appearance on the target domain as no ground truth is available to learn the slight appearance differences. To address this problem, we propose a Masked Image Consistency (MIC) module to enhance UDA by learning spatial context relations of the target domain as additional clues for robust visual recognition. MIC enforces the consistency between predictions of masked target images, where random patches are withheld, and pseudo-labels that are generated based on the complete image by an exponential moving average teacher. To minimize the consistency loss, the network has to learn to infer the predictions of the masked regions from their context. Due to its simple and universal concept, MIC can be integrated into various UDA methods across different visual recognition tasks such as image classification, semantic segmentation, and object detection. MIC significantly improves the state-of-the-art performance across the different recognition tasks for synthetic-to-real, day-to-nighttime, and clear-to-adverse-weather UDA. For instance, MIC achieves an unprecedented UDA performance of 75.9 mIoU and 92.8% on GTA-to-Cityscapes and VisDA-2017, respectively, which corresponds to an improvement of +2.1 and +3.0 percent points over the previous state of the art. The implementation is available at https://github.com/lhoyer/MIC.

translated by 谷歌翻译

Exploiting Both Domain-specific and Invariant Knowledge via a Win-win Transformer for Unsupervised Domain Adaptation

Wenxuan Ma , Jinming Zhang , Shuang Li , Chi Harold Liu , Yulin Wang , Wei Li

分类：计算机视觉

2021-11-25

无监督的域适应（UDA）旨在将知识从标记的源域传输到未标记的目标域。大多数现有的UDA方法通过学习域 - 不变的表示和在两个域中共享一个分类器来实现知识传输。但是，忽略与任务相关的域特定信息，并强制统一的分类器以适合两个域将限制每个域中的特征表达性。在本文中，通过观察到具有可比参数的变压器架构可以产生比CNN对应的更可转换的表示，我们提出了一个双赢的变压器框架（WINTR），它分别探讨了每个域的特定于域的知识，而同时交互式跨域知识。具体而言，我们使用变压器中的两个单独的分类令牌学习两个不同的映射，以及每个特定于域的分类器的设计。跨域知识通过源引导标签改进和与源或目标的单侧特征对齐传输，这保持了特定于域的信息的完整性。三个基准数据集的广泛实验表明，我们的方法优于最先进的UDA方法，验证利用域特定和不变性的有效性

translated by 谷歌翻译

A Broad Study of Pre-training for Domain Generalization and Adaptation

Donghyun Kim , Kaihong Wang , Stan Sclaroff , Kate Saenko

分类：计算机视觉

2022-03-22

深层模型必须学习强大而可转移的表示形式，以便在新领域上表现良好。尽管已经提出了域转移方法（例如，域的适应性，域的概括）来学习跨域的可转移表示，但通常将它们应用于在Imagenet上预先训练的重置骨架。因此，现有作品很少关注预训练对域转移任务的影响。在本文中，我们对领域适应和泛化的预训练进行了广泛的研究和深入分析，即：网络体系结构，大小，训练损失和数据集。我们观察到，仅使用最先进的主链优于现有的最先进的域适应基线，并将新的基本线设置为Office-Home和Domainnet在10.7 \％和5.5 \％上提高。我们希望这项工作可以为未来的领域转移研究提供更多见解。

translated by 谷歌翻译

Unsupervised Domain Adaptation for Semantic Image Segmentation: a Comprehensive Survey

Gabriela Csurka , Riccardo Volpi , Boris Chidlovskii

分类：计算机视觉 | 人工智能

2021-12-06

语义分割在广泛的计算机视觉应用中起着基本作用，提供了全球对图像的理解的关键信息。然而，最先进的模型依赖于大量的注释样本，其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜，因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年，这包含了语义细分本身的重要性，以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习，域泛化，测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员，并有助于他们培养现场的新研究方向。

translated by 谷歌翻译

TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation

Jinyu Yang , Jingjing Liu , Ning Xu , Junzhou Huang

分类：计算机视觉

2021-08-12

无监督域适应（UDA）旨在将从标记的源域中学习的知识转移到未标记的目标域。以前的工作主要是在卷积神经网络（CNNS）上建立的，以学习域名不变的表示。随着近期应用视觉变压器（VIT）对视力任务的指数增加，然而，在文献中仍未开发了调整跨领域知识的能力。为了填补这一差距，本文首先全面调查了vit的各种域适应任务的可转移性。令人惊讶的是，VIT通过其具有大边缘的基于CNNS的对应物来证明优异的可转移性，而通过掺入抗体适应可以进一步提高性能。尽管如此，直接使用基于CNNS的适应策略未能利用Vit的内在优点（例如，注意机制和顺序图像表示）在知识转移中起重要作用。为了解决这个问题，我们提出了一个统一的框架，即可转换的视觉变压器（TVT），以充分利用VIT的可转换性来实现域适应。具体而言，我们精致地设计了一种新颖且有效的单位，我们术语可转移适应模块（TAM）。通过将学习的传递注入注意块，TAM压迫重点是可转移和辨别特征。此外，我们利用判别聚类来增强在对抗域对齐期间破坏的特征分集和分离。为了验证其多功能性，我们在四个基准测试中对TVT进行了广泛的研究，实验结果表明，与现有的最先进的UDA方法相比，TVT达到了显着的改进。

translated by 谷歌翻译

What to Hide from Your Students: Attention-Guided Masked Image Modeling

Ioannis Kakogeorgiou , Spyros Gidaris , Bill Psomas , Yannis Avrithis , Andrei Bursuc , Konstantinos Karantzalos , Nikos Komodakis

分类：计算机视觉

2022-03-23

变形金刚和蒙版语言建模在计算机视觉中很快被视为视觉变压器和蒙版图像建模（MIM）。在这项工作中，我们认为由于图像中令牌的数量和相关性，图像令牌掩盖与文本中的令牌掩盖有所不同。特别是，为了为MIM产生具有挑战性的借口任务，我们主张从随机掩盖到知情掩盖的转变。我们在基于蒸馏的MIM的背景下开发并展示了这一想法，其中教师变压器编码器生成了一个注意力图，我们用它来指导学生为学生指导掩盖。因此，我们引入了一种新颖的掩蔽策略，称为注意引导蒙版（ATTMASK），我们证明了其对基于密集蒸馏的MIM以及基于普通蒸馏的自然剥离的自助力学习的有效性。我们确认ATTMASK可以加快学习过程，并提高各种下游任务的性能。我们在https://github.com/gkakogeorgiou/attmask上提供实现代码。

translated by 谷歌翻译

Position Prediction as an Effective Pretraining Strategy

Shuangfei Zhai , Navdeep Jaitly , Jason Ramapuram , Dan Busbridge , Tatiana Likhomanenko , Joseph Yitan Cheng , Walter Talbott , Chen Huang , Hanlin Goh , Joshua Susskind

分类：机器学习 | 计算机视觉

2022-07-15

由于具有强大的代表性，变形金刚在包括自然语言处理（NLP），计算机视觉和语音识别在内的广泛应用中越来越受欢迎。但是，利用这种代表性的能力有效地需要大量的数据，强大的正则化或两者兼而有之以减轻过度拟合。最近，基于掩盖的自动编码器的自我监督预处理策略已解锁了变压器的功能，这些策略依赖于直接或从未掩盖的内容对比的掩蔽输入进行重建。这种预训练的策略已在NLP中的BERT模型，Speak2VEC模型中使用，最近在Vision中的MAE模型中，该模型迫使该模型使用自动编码相关的目标来了解输入不同部分中的内容之间的关系。在本文中，我们提出了一种小说但令人惊讶的简单替代内容，以预测内容的位置，而无需为其提供位置信息。这样做需要变压器仅凭内容就可以理解输入不同部分之间的位置关系。这相当于有效的实现，其中借口任务是每个输入令牌所有可能位置之间的分类问题。我们在视觉和语音基准上进行了实验，我们的方法对强有力的监督训练基准进行了改进，并且与现代的无监督/自我监督预审方法相媲美。我们的方法还可以使经过训练的变压器在没有位置嵌入的情况下胜过训练有完整位置信息的训练的变压器。

translated by 谷歌翻译

TimeMatch: Unsupervised Cross-Region Adaptation by Temporal Shift Estimation

Joachim Nyborg , Charlotte Pelletier , Sébastien Lefèvre , Ira Assent

分类：计算机视觉 | 机器学习

2021-11-04

深度学习模型的最新发展，捕捉作物物候的复杂的时间模式有卫星图像时间序列（坐在），大大高级作物分类。然而，当施加到目标区域从训练区空间上不同的，这些模型差没有任何目标标签由于作物物候区域之间的时间位移进行。为了解决这个无人监督跨区域适应环境，现有方法学域不变特征没有任何目标的监督，而不是时间偏移本身。因此，这些技术提供了SITS只有有限的好处。在本文中，我们提出TimeMatch，一种新的无监督领域适应性方法SITS直接占时移。 TimeMatch由两个部分组成：1）时间位移的估计，其估计具有源极训练模型的未标记的目标区域的时间偏移，和2）TimeMatch学习，它结合了时间位移估计与半监督学习到一个分类适应未标记的目标区域。我们还引进了跨区域适应的开放式访问的数据集与来自欧洲四个不同区域的旁边。在此数据集，我们证明了TimeMatch优于所有竞争的方法，通过11％的在五个不同的适应情景F1-得分，创下了新的国家的最先进的跨区域适应性。

translated by 谷歌翻译

Domain Alignment Meets Fully Test-Time Adaptation

Kowshik Thopalli , Pavan Turaga , Jayaraman J. Thiagarajan

分类：计算机视觉 | 机器学习

2022-07-09

部署的ML模型的基本要求是从与培训不同的测试分布中汲取的数据概括。解决此问题的一个流行解决方案是，仅使用未标记的数据将预训练的模型调整为新的域。在本文中，我们关注该问题的挑战性变体，其中访问原始源数据受到限制。虽然完全测试时间适应（FTTA）和无监督的域适应性（UDA）密切相关，但由于大多数UDA方法需要访问源数据，因此UDA的进展不容易适用于TTA。因此，我们提出了一种新方法，即Cattan，它通过放松了通过新颖的深层子空间对准策略来放松访问整个源数据的需求，从而弥合了UDA和FTTA。通过为源数据存储的子空间基础设置的最小开销，Cattan在适应过程中可以在源数据和目标数据之间进行无监督的对齐。通过对多个2D和3D Vision基准测试（Imagenet-C，Office-31，OfficeHome，Domainnet，PointDa-10）和模型体系结构进行广泛的实验评估，我们在FTTA性能方面表现出显着提高。此外，即使使用固有健壮的模型，预训练的VIT表示以及目标域中的样本可用性低，我们也会对对齐目标的实用性做出许多关键发现。

translated by 谷歌翻译

Student Collaboration Improves Self-Supervised Learning: Dual-Loss Adaptive Masked Autoencoder for Multiplexed Immunofluorescence Brain Images Analysis

Son T. Ly , Bai Lin , Hung Q. Vo , Dragan Maric , Badri Roysam , Hien V. Nguyen

分类：计算机视觉

2022-05-10

自我监督学习（SSL）利用基础数据结构来生成培训深网络的监督信号。这种方法提供了一种实用的解决方案，可用于学习多重免疫荧光大脑图像，其中数据通常比人类专家注释更丰富。基于对比度学习和图像重建的SSL算法表现出令人印象深刻的性能。不幸的是，这些方法是在自然图像而不是生物医学图像上设计和验证的。最近的一些作品已应用SSL来分析细胞图像。然而，这些作品均未研究SSL对多重免疫荧光脑图像的研究。这些作品还没有为采用特定的SSL方法提供明确的理论理由。在这些局限性的激励下，我们的论文介绍了从信息理论观点开发的一种自我监督的双损坏自适应掩盖自动编码器（DAMA）算法。 Dama的目标函数通过最大程度地降低像素级重建和特征级回归中的条件熵来最大化相互信息。此外，Dama还引入了一种新型的自适应掩码采样策略，以最大程度地提高相互信息并有效地学习脑细胞数据上下文信息。我们首次在多重免疫荧光脑图像上提供了SSL算法的广泛比较。我们的结果表明，Dama优于细胞分类和分割任务的其他SSL方法。 Dama还可以在Imagenet-1k上实现竞争精确度。 Dama的源代码可在https://github.com/hula-ai/dama上公开获得

translated by 谷歌翻译

OmniMAE: Single Model Masked Pretraining on Images and Videos

Rohit Girdhar , Alaaeldin El-Nouby , Mannat Singh , Kalyan Vasudev Alwala , Armand Joulin , Ishan Misra

分类：计算机视觉 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-16

基于变压器的体系结构已在各种视觉域（最著名的图像和视频）中变得更具竞争力。虽然先前的工作已经孤立地研究了这些模式，但拥有一个共同的体系结构表明，人们可以训练单个统一模型以多种视觉方式。事先尝试进行统一建模通常使用针对视觉任务量身定制的体系结构，或与单个模态模型相比获得较差的性能。在这项工作中，我们表明可以使用蒙版的自动编码来在图像和视频上训练简单的视觉变压器，而无需任何标记的数据。该单个模型学习了与图像和视频基准上的单模式表示相当或更好的视觉表示，同时使用了更简单的体系结构。特别是，我们的单一预算模型可以进行审核，以在ImageNet上获得86.5％的速度，而在挑战性的事物V2视频基准测试中，可以实现75.3％的范围。此外，可以通过丢弃90％的图像和95％的视频补丁来学习该模型，从而实现非常快速的训练。

translated by 谷歌翻译

SiT: Self-supervised vIsion Transformer

Sara Atito , Muhammad Awais , Josef Kittler

分类：计算机视觉 | 机器学习

2021-04-08

由于其最近在减少监督学习的差距方面取得了成功，自我监督的学习方法正在增加计算机愿景的牵引力。在自然语言处理（NLP）中，自我监督的学习和变形金刚已经是选择的方法。最近的文献表明，变压器也在计算机愿景中越来越受欢迎。到目前为止，当使用大规模监督数据或某种共同监督时，视觉变压器已被证明可以很好地工作。在教师网络方面。这些监督的普试视觉变压器在下游任务中实现了非常好的变化，变化最小。在这项工作中，我们调查自我监督学习的预用图像/视觉变压器，然后使用它们进行下游分类任务的优点。我们提出了自我监督的视觉变压器（坐在）并讨论了几种自我监督的培训机制，以获得借口模型。静坐的架构灵活性允许我们将其用作自动统计器，并无缝地使用多个自我监控任务。我们表明，可以在小规模数据集上进行预训练，以便在小型数据集上进行下游分类任务，包括几千个图像而不是数百万的图像。使用公共协议对所提出的方法进行评估标准数据集。结果展示了变压器的强度及其对自我监督学习的适用性。我们通过大边缘表现出现有的自我监督学习方法。我们还观察到坐着很好，很少有镜头学习，并且还表明它通过简单地训练从坐的学到的学习功能的线性分类器来学习有用的表示。预先训练，FineTuning和评估代码将在以下：https://github.com/sara-ahmed/sit。

translated by 谷歌翻译

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Chaoning Zhang , Chenshuang Zhang , Junha Song , John Seon Keun Yi , Kang Zhang , In So Kweon

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-30

蒙面的自动编码器是可扩展的视觉学习者，因为Mae \ Cite {He2022masked}的标题表明，视觉中的自我监督学习（SSL）可能会采用与NLP中类似的轨迹。具体而言，具有蒙版预测（例如BERT）的生成借口任务已成为NLP中的事实上的标准SSL实践。相比之下，他们的歧视性对应物（例如对比度学习）掩埋了视力中的生成方法的早期尝试；但是，蒙版图像建模的成功已恢复了屏蔽自动编码器（过去通常被称为DeNosing AutoCoder）。作为在NLP中与Bert弥合差距的一个里程碑，蒙面自动编码器吸引了对SSL在视觉及其他方面的前所未有的关注。这项工作对蒙面自动编码器进行了全面的调查，以洞悉SSL的有希望的方向。作为第一个使用蒙版自动编码器审查SSL的人，这项工作通过讨论其历史发展，最新进度以及对不同应用的影响，重点介绍其在视觉中的应用。

translated by 谷歌翻译

Understanding Masked Image Modeling via Learning Occlusion Invariant Feature

Xiangwen Kong , Xiangyu Zhang

分类：计算机视觉

2022-08-08

最近，蒙面图像建模（MIM）在自我监视的视觉识别方面取得了巨大的成功。但是，作为一个基于重建的框架，了解MIM的工作原理仍然是一个悬而未决的问题，因为MIM与以前研究过的暹罗方法（例如对比度学习）有很大不同。在本文中，我们提出了一个新的观点：MIM隐含地学习咬合不变特征，这与其他暹罗方法类似，而后者则学习其他不变性。通过将MIM公式放松为等效的暹罗形式，可以用常规方法在统一框架中解释MIM方法，其中只有a）数据转换，即学习什么不变性，b）相似性测量是不同的。此外，以Mae（He等）为MIM的一个代表性示例，我们从经验上发现MIM模型的成功与选择相似性功能的选择有点联系，但是蒙面图像引入了学习的咬合不变特征 - 事实证明对于视觉变压器来说，这是一个受欢迎的初始化，即使学习的功能可能不太语义。我们希望我们的发现能够激发研究人员在计算机视觉社区中开发更强大的自我监督方法。

translated by 谷歌翻译