智能论文笔记

TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation

Jinyu Yang , Jingjing Liu , Ning Xu , Junzhou Huang

分类：计算机视觉

2021-08-12

无监督域适应（UDA）旨在将从标记的源域中学习的知识转移到未标记的目标域。以前的工作主要是在卷积神经网络（CNNS）上建立的，以学习域名不变的表示。随着近期应用视觉变压器（VIT）对视力任务的指数增加，然而，在文献中仍未开发了调整跨领域知识的能力。为了填补这一差距，本文首先全面调查了vit的各种域适应任务的可转移性。令人惊讶的是，VIT通过其具有大边缘的基于CNNS的对应物来证明优异的可转移性，而通过掺入抗体适应可以进一步提高性能。尽管如此，直接使用基于CNNS的适应策略未能利用Vit的内在优点（例如，注意机制和顺序图像表示）在知识转移中起重要作用。为了解决这个问题，我们提出了一个统一的框架，即可转换的视觉变压器（TVT），以充分利用VIT的可转换性来实现域适应。具体而言，我们精致地设计了一种新颖且有效的单位，我们术语可转移适应模块（TAM）。通过将学习的传递注入注意块，TAM压迫重点是可转移和辨别特征。此外，我们利用判别聚类来增强在对抗域对齐期间破坏的特征分集和分离。为了验证其多功能性，我们在四个基准测试中对TVT进行了广泛的研究，实验结果表明，与现有的最先进的UDA方法相比，TVT达到了显着的改进。

translated by 谷歌翻译

Semantic-aware Message Broadcasting for Efficient Unsupervised Domain Adaptation

Xin Li , Cuiling Lan , Guoqiang Wei , Zhibo Chen

分类：计算机视觉 | 人工智能

2022-12-06

Vision transformer has demonstrated great potential in abundant vision tasks. However, it also inevitably suffers from poor generalization capability when the distribution shift occurs in testing (i.e., out-of-distribution data). To mitigate this issue, we propose a novel method, Semantic-aware Message Broadcasting (SAMB), which enables more informative and flexible feature alignment for unsupervised domain adaptation (UDA). Particularly, we study the attention module in the vision transformer and notice that the alignment space using one global class token lacks enough flexibility, where it interacts information with all image tokens in the same manner but ignores the rich semantics of different regions. In this paper, we aim to improve the richness of the alignment features by enabling semantic-aware adaptive message broadcasting. Particularly, we introduce a group of learned group tokens as nodes to aggregate the global information from all image tokens, but encourage different group tokens to adaptively focus on the message broadcasting to different semantic regions. In this way, our message broadcasting encourages the group tokens to learn more informative and diverse information for effective domain alignment. Moreover, we systematically study the effects of adversarial-based feature alignment (ADA) and pseudo-label based self-training (PST) on UDA. We find that one simple two-stage training strategy with the cooperation of ADA and PST can further improve the adaptation capability of the vision transformer. Extensive experiments on DomainNet, OfficeHome, and VisDA-2017 demonstrate the effectiveness of our methods for UDA.

translated by 谷歌翻译

Exploiting Both Domain-specific and Invariant Knowledge via a Win-win Transformer for Unsupervised Domain Adaptation

Wenxuan Ma , Jinming Zhang , Shuang Li , Chi Harold Liu , Yulin Wang , Wei Li

分类：计算机视觉

2021-11-25

无监督的域适应（UDA）旨在将知识从标记的源域传输到未标记的目标域。大多数现有的UDA方法通过学习域 - 不变的表示和在两个域中共享一个分类器来实现知识传输。但是，忽略与任务相关的域特定信息，并强制统一的分类器以适合两个域将限制每个域中的特征表达性。在本文中，通过观察到具有可比参数的变压器架构可以产生比CNN对应的更可转换的表示，我们提出了一个双赢的变压器框架（WINTR），它分别探讨了每个域的特定于域的知识，而同时交互式跨域知识。具体而言，我们使用变压器中的两个单独的分类令牌学习两个不同的映射，以及每个特定于域的分类器的设计。跨域知识通过源引导标签改进和与源或目标的单侧特征对齐传输，这保持了特定于域的信息的完整性。三个基准数据集的广泛实验表明，我们的方法优于最先进的UDA方法，验证利用域特定和不变性的有效性

translated by 谷歌翻译

Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation

Jian Liang , Dapeng Hu , Jiashi Feng

分类：

2020-02-20

Unsupervised domain adaptation (UDA) aims to leverage the knowledge learned from a labeled source dataset to solve similar tasks in a new unlabeled domain. Prior UDA methods typically require to access the source data when learning to adapt the model, making them risky and inefficient for decentralized private data. This work tackles a practical setting where only a trained source model is available and investigates how we can effectively utilize such a model without source data to solve UDA problems. We propose a simple yet generic representation learning framework, named Source HypOthesis Transfer (SHOT). SHOT freezes the classifier module (hypothesis) of the source model and learns the target-specific feature extraction module by exploiting both information maximization and selfsupervised pseudo-labeling to implicitly align representations from the target domains to the source hypothesis. To verify its versatility, we evaluate SHOT in a variety of adaptation cases including closed-set, partial-set, and open-set domain adaptation. Experiments indicate that SHOT yields state-of-the-art results among multiple domain adaptation benchmarks.

translated by 谷歌翻译

Source Data-absent Unsupervised Domain Adaptation through Hypothesis Transfer and Labeling Transfer

Jian Liang , Dapeng Hu , Yunbo Wang , Ran He , Jiashi Feng

分类：计算机视觉 | 机器学习

2020-12-14

无监督域适应（UDA）旨在将知识从相关但不同的良好标记的源域转移到新的未标记的目标域。大多数现有的UDA方法需要访问源数据，因此当数据保密而不相配在隐私问题时，不适用。本文旨在仅使用培训的分类模型来解决现实设置，而不是访问源数据。为了有效地利用适应源模型，我们提出了一种新颖的方法，称为源假设转移（拍摄），其通过将目标数据特征拟合到冻结源分类模块（表示分类假设）来学习目标域的特征提取模块。具体而言，拍摄挖掘出于特征提取模块的信息最大化和自我监督学习，以确保目标特征通过同一假设与看不见的源数据的特征隐式对齐。此外，我们提出了一种新的标签转移策略，它基于预测的置信度（标签信息），然后采用半监督学习来将目标数据分成两个分裂，然后提高目标域中的较为自信预测的准确性。如果通过拍摄获得预测，我们表示标记转移为拍摄++。关于两位数分类和对象识别任务的广泛实验表明，拍摄和射击++实现了与最先进的结果超越或相当的结果，展示了我们对各种视域适应问题的方法的有效性。代码可用于\ url {https：//github.com/tim-learn/shot-plus}。

translated by 谷歌翻译

Making the Best of Both Worlds: A Domain-Oriented Transformer for Unsupervised Domain Adaptation

Wenxuan Ma , Jinming Zhang , Shuang Li , Chi Harold Liu , Yulin Wang , Wei Li

分类：计算机视觉

2022-08-02

关于无监督的域适应性（UDA）的广泛研究已将有限的实验数据集深入学习到现实世界中无约束的领域。大多数UDA接近通用嵌入空间中的对齐功能，并将共享分类器应用于目标预测。但是，由于当域差异很大时可能不存在完全排列的特征空间，因此这些方法受到了两个局限性。首先，由于缺乏目标标签监督，强制域的比对会恶化目标域的可区分性。其次，源监督分类器不可避免地偏向源数据，因此它在目标域中的表现可能不佳。为了减轻这些问题，我们建议在两个集中在不同领域的空间中同时进行特征对齐，并为每个空间创建一个针对该域的面向域的分类器。具体而言，我们设计了一个面向域的变压器（DOT），该变压器（DOT）具有两个单独的分类令牌，以学习不同的面向域的表示形式和两个分类器，以保持域的可区分性。理论保证的基于对比度的对齐和源指导的伪标签细化策略被用来探索域名和特定信息。全面的实验验证了我们的方法在几个基准上实现了最先进的方法。

translated by 谷歌翻译

CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation

Tongkun Xu , Weihua Chen , Pichao Wang , Fan Wang , Hao Li , Rong Jin

分类：计算机视觉 | 机器学习

2021-09-13

无监督域适应（UDA）旨在将从标记的源域中学习的知识转移到不同的未标记的目标域。大多数现有的UDA方法专注于使用卷积神经网络（CNNS）的框架来学习域级别或类别级别的域不变特征表示。基于类别级别的UDA的一个根本问题是针对目标域中的样本的伪标签的生产通常太嘈杂，对于精确的域对齐，不可避免地影响UDA性能。随着变压器在各种任务中的成功，我们发现变压器中的横向对嘈杂的输入对具有鲁棒，以进行更好的特征对齐，因此在挑战的UDA任务中采用了该变压器。具体地，为了生成准确的输入对，我们设计了一种双向中心感知标记算法，为目标样本产生伪标签。随着伪标签，提出了一种重量共享三分支变压器框架，以分别应用用于源/目标特征学习和源极域对齐的自我关注和横向。这种设计明确强制执行框架，以便同时学习鉴别的域和域不变的表示。所提出的方法是Dubbed CDTrans（跨域变压器），它提供了第一次尝试用纯变压器解决方案解决UDA任务。实验表明，我们的拟议方法实现了公共UDA数据集的最佳表现，例如， Visda-2017和DomainNet。代码和模型可在https://github.com/cdtrans/cdtrans中获得。

translated by 谷歌翻译

Unsupervised Domain Adaptation via Style-Aware Self-intermediate Domain

Lianyu Wang , Meng Wang , Daoqiang Zhang , Huazhu Fu

分类：计算机视觉 | 人工智能

2022-09-05

无监督的域适应性（UDA）引起了相当大的关注，这将知识从富含标签的源域转移到相关但未标记的目标域。减少域间差异一直是提高UDA性能的关键因素，尤其是对于源域和目标域之间存在较大差距的任务。为此，我们提出了一种新颖的风格感知功能融合方法（SAFF），以弥合大域间隙和转移知识，同时减轻阶级歧视性信息的丧失。受到人类传递推理和学习能力的启发，研究了一种新颖的风格感知的自我互化领域（SSID），通过一系列中级辅助综合概念将两个看似无关的概念联系起来。具体而言，我们提出了一种新颖的SSID学习策略，该策略从源和目标域中选择样本作为锚点，然后随机融合这些锚的对象和样式特征，以生成具有标记和样式丰富的中级辅助功能以进行知识转移。此外，我们设计了一个外部存储库来存储和更新指定的标记功能，以获得稳定的类功能和班级样式功能。基于提议的内存库，内部和域间损耗功能旨在提高类识别能力和特征兼容性。同时，我们通过无限抽样模拟SSID的丰富潜在特征空间，并通过数学理论模拟损失函数的收敛性。最后，我们对常用的域自适应基准测试进行了全面的实验，以评估所提出的SAFF，并且实验结果表明，所提出的SAFF可以轻松地与不同的骨干网络结合在一起，并获得更好的性能作为插入插型模块。

translated by 谷歌翻译

A Broad Study of Pre-training for Domain Generalization and Adaptation

Donghyun Kim , Kaihong Wang , Stan Sclaroff , Kate Saenko

分类：计算机视觉

2022-03-22

深层模型必须学习强大而可转移的表示形式，以便在新领域上表现良好。尽管已经提出了域转移方法（例如，域的适应性，域的概括）来学习跨域的可转移表示，但通常将它们应用于在Imagenet上预先训练的重置骨架。因此，现有作品很少关注预训练对域转移任务的影响。在本文中，我们对领域适应和泛化的预训练进行了广泛的研究和深入分析，即：网络体系结构，大小，训练损失和数据集。我们观察到，仅使用最先进的主链优于现有的最先进的域适应基线，并将新的基本线设置为Office-Home和Domainnet在10.7 \％和5.5 \％上提高。我们希望这项工作可以为未来的领域转移研究提供更多见解。

translated by 谷歌翻译

Learning Unbiased Transferability for Domain Adaptation by Uncertainty Modeling

Jian Hu , Haowen Zhong , Junchi Yan , Shaogang Gong , Guile Wu , Fei Yang

分类：计算机视觉

2022-06-02

域的适应性（DA）旨在将知识从标记的源域中学习的知识转移到未标记或标记较小但相关的目标域的知识。理想情况下，源和目标分布应彼此平等地对齐，以实现公正的知识转移。但是，由于源和目标域中注释数据的数量之间存在显着不平衡，通常只有目标分布与源域保持一致，从而使不必要的源特定知识适应目标域，即偏置域的适应性。为了解决此问题，在这项工作中，我们通过对基于对抗性的DA方法进行建模来对歧视器的不确定性进行建模，以优化无偏见转移。我们理论上分析了DA中提出的无偏可传递性学习方法的有效性。此外，为了减轻注释数据不平衡的影响，我们利用了目标域中未标记样品的伪标签选择的估计不确定性，这有助于实现更好的边际和条件分布在域之间的分布。对各种DA基准数据集的广泛实验结果表明，可以轻松地将所提出的方法纳入各种基于对抗性的DA方法中，从而实现最新的性能。

translated by 谷歌翻译

Reciprocal Normalization for Domain Adaptation

Zhiyong Huang , Kekai Sheng , Ke Li , Jian Liang , Taiping Yao , Weiming Dong , Dengwen Zhou , Xing Sun

分类：计算机视觉

2021-12-20

批量归一化（BN）广泛用于现代神经网络，已被证明代表与域相关知识，因此对于跨域任务（如无监督域适应（UDA））无效。现有的BN变体方法在归一化模块中相同信道中的源和目标域知识。然而，跨域跨域的相应通道的特征之间的错位通常导致子最佳的可转换性。在本文中，我们利用跨域关系并提出了一种新颖的归一化方法，互惠归一化（RN）。具体地，RN首先呈现互易补偿（RC）模块，用于基于跨域频道明智的相关性在两个域中获取每个信道的补偿。然后，RN开发互易聚合（RA）模块，以便以其跨域补偿组件自适应地聚合特征。作为BN的替代方案，RN更适合于UDA问题并且可以容易地集成到流行的域适应方法中。实验表明，所提出的RN优于现有的正常化对应物，通过大幅度，并有助于最先进的适应方法实现更好的结果。源代码可在https://github.com/openning07/reciprocal-normalization-for-da上找到。

translated by 谷歌翻译

A Survey of Unsupervised Domain Adaptation for Visual Recognition

Youshan Zhang

分类：计算机视觉

2021-12-13

虽然在许多域内生成并提供了大量的未标记数据，但对视觉数据的自动理解的需求高于以往任何时候。大多数现有机器学习模型通常依赖于大量标记的训练数据来实现高性能。不幸的是，在现实世界的应用中，不能满足这种要求。标签的数量有限，手动注释数据昂贵且耗时。通常需要将知识从现有标记域传输到新域。但是，模型性能因域之间的差异（域移位或数据集偏差）而劣化。为了克服注释的负担，域适应（DA）旨在在将知识从一个域转移到另一个类似但不同的域中时减轻域移位问题。无监督的DA（UDA）处理标记的源域和未标记的目标域。 UDA的主要目标是减少标记的源数据和未标记的目标数据之间的域差异，并在培训期间在两个域中学习域不变的表示。在本文中，我们首先定义UDA问题。其次，我们从传统方法和基于深度学习的方法中概述了不同类别的UDA的最先进的方法。最后，我们收集常用的基准数据集和UDA最先进方法的报告结果对视觉识别问题。

translated by 谷歌翻译

Conditional Adversarial Domain Adaptation

Mingsheng Long , Zhangjie Cao , Jianmin Wang , Michael I. Jordan

分类：

2017-05-26

Adversarial learning has been embedded into deep networks to learn disentangled and transferable representations for domain adaptation. Existing adversarial domain adaptation methods may not effectively align different domains of multimodal distributions native in classification problems. In this paper, we present conditional adversarial domain adaptation, a principled framework that conditions the adversarial adaptation models on discriminative information conveyed in the classifier predictions. Conditional domain adversarial networks (CDANs) are designed with two novel conditioning strategies: multilinear conditioning that captures the crosscovariance between feature representations and classifier predictions to improve the discriminability, and entropy conditioning that controls the uncertainty of classifier predictions to guarantee the transferability. With theoretical guarantees and a few lines of codes, the approach has exceeded state-of-the-art results on five datasets.

translated by 谷歌翻译

Semi-supervised Domain Adaptive Structure Learning

Can Qin , Lichen Wang , Qianqian Ma , Yu Yin , Huan Wang , Yun Fu

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-12

半监督域适应（SSDA）是一种具有挑战性的问题，需要克服1）以朝向域的较差的数据和2）分布换档的方法。不幸的是，由于培训数据偏差朝标标样本训练，域适应（DA）和半监督学习（SSL）方法的简单组合通常无法解决这两个目的。在本文中，我们介绍了一种自适应结构学习方法，以规范SSL和DA的合作。灵感来自多视图学习，我们建议的框架由共享特征编码器网络和两个分类器网络组成，用于涉及矛盾的目的。其中，其中一个分类器被应用于组目标特征以提高级别的密度，扩大了鲁棒代表学习的分类集群的间隙。同时，其他分类器作为符号器，试图散射源功能以增强决策边界的平滑度。目标聚类和源扩展的迭代使目标特征成为相应源点的扩张边界内的封闭良好。对于跨域特征对齐和部分标记的数据学习的联合地址，我们应用最大平均差异（MMD）距离最小化和自培训（ST）将矛盾结构投影成共享视图以进行可靠的最终决定。对标准SSDA基准的实验结果包括Domainnet和Office-Home，展示了我们对最先进的方法的方法的准确性和稳健性。

translated by 谷歌翻译

Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation

Ruijia Xu , Guanbin Li , Jihan Yang , Liang Lin

分类：

2018-11-19

Domain adaptation enables the learner to safely generalize into novel environments by mitigating domain shifts across distributions. Previous works may not effectively uncover the underlying reasons that would lead to the drastic model degradation on the target task. In this paper, we empirically reveal that the erratic discrimination of the target domain mainly stems from its much smaller feature norms with respect to that of the source domain. To this end, we propose a novel parameter-free Adaptive Feature Norm approach. We demonstrate that progressively adapting the feature norms of the two domains to a large range of values can result in significant transfer gains, implying that those task-specific features with larger norms are more transferable. Our method successfully unifies the computation of both standard and partial domain adaptation with more robustness against the negative transfer issue. Without bells and whistles but a few lines of code, our method substantially lifts the performance on the target task and exceeds state-of-the-arts by a large margin (11.5% on Office-Home [45] and 17.1% on VisDA2017 [31]). We hope our simple yet effective approach will shed some light on the future research of transfer learning. Code is available at https://github.com/jihanyang/AFN .

translated by 谷歌翻译

Dynamic Instance Domain Adaptation

Zhongying Deng , Kaiyang Zhou , Da Li , Junjun He , Yi-Zhe Song , Tao Xiang

分类：计算机视觉

2022-03-09

关于无监督域适应性（UDA）的大多数现有研究都认为每个域的训练样本都带有域标签（例如绘画，照片）。假定每个域中的样品都遵循相同的分布，并利用域标签通过特征对齐来学习域不变特征。但是，这样的假设通常并不成立 - 通常存在许多较细粒的领域（例如，已经开发出了数十种现代绘画样式，每种绘画样式与经典风格的范围都有很大不同）。因此，在每个人工定义和粗粒结构域之间强迫特征分布对齐可能是无效的。在本文中，我们从完全不同的角度解决了单源和多源UDA，即将每个实例视为一个良好的域。因此，跨域的特征对齐是冗余。相反，我们建议执行动态实例域的适应性（DIDA）。具体而言，开发了具有自适应卷积内核的动态神经网络，以生成实例自适应残差，以使域 - 无知的深度特征适应每个单独的实例。这使得共享分类器可以同时应用于源域数据，而无需依赖任何域注释。此外，我们没有施加复杂的特征对准损失，而是仅使用标记的源和伪标记为目标数据的跨透镜损失采用简单的半监督学习范式。我们的模型被称为DIDA-NET，可以在几种常用的单源和多源UDA数据集上实现最先进的性能，包括数字，办公室房屋，域名，域名，Digit-Five和PAC。

translated by 谷歌翻译

Transferrable Contrastive Learning for Visual Domain Adaptation

Yang Chen , Yingwei Pan , Yu Wang , Ting Yao , Xinmei Tian , Tao Mei

分类：计算机视觉 | 人工智能

2021-12-14

自我监督的学习（SSL）最近成为特征学习方法中的最爱。因此，它可以吸引域适应方法来考虑结合SSL。直觉是强制执行实例级别一致性，使得预测器在域中变得不变。但是，域适应制度中的大多数现有SSL方法通常被视为独立的辅助组件，使域自适应的签名无人看管。实际上，域间隙消失的最佳区域和SSL PERUSES的实例级别约束可能根本不一致。从这一点来看，我们向一个特定的范式的自我监督学习量身定制，用于域适应，即可转让的对比学习（TCL），这与SSL和所需的跨域转移性相一致地联系起来。我们发现对比学习本质上是一个合适的域适应候选者，因为它的实例不变性假设可以方便地促进由域适应任务青睐的跨域类级不变性。基于特定的记忆库结构和伪标签策略，TCL然后通过清洁和新的对比损失来惩罚源头和靶之间的跨域内域差异。免费午餐是由于纳入对比学习，TCL依赖于移动平均的关键编码器，自然地实现了用于目标数据的伪标签的暂停标签，这避免了无额外的成本。因此，TCL有效地减少了跨域间隙。通过对基准（Office-Home，Visda-2017，Diamet-Five，PACS和Domainnet）进行广泛的实验，用于单源和多源域适配任务，TCL已经证明了最先进的性能。

translated by 谷歌翻译

INDIGO: Intrinsic Multimodality for Domain Generalization

Puneet Mangla , Shivam Chandhok , Milan Aggarwal , Vineeth N Balasubramanian , Balaji Krishnamurthy

分类：计算机视觉

2022-06-13

为了使模型在看不见的域（又称域的概括）下进行概括，学习是域 - 不可思议的特征表示并捕获构成对象类别的基础语义。朝着弱监督的视力语言模型的最新进展，从廉价监督的嘈杂文本注释中学习整体表示，通过捕获在不同域下概括的对象特征，表明了他们在语义理解上的能力。但是，当涉及多个源域时，数据集中每个图像的策划文本注释的成本可能会爆炸多次，具体取决于其数字。这使得该过程乏味和不可行，阻碍了我们直接使用这些监督视觉语言方法来实现对看不见的领域的最佳概括。从此激励的是，我们研究了如何以“内在”的方式利用现有预训练的多模式网络的多模式信息，以使系统在看不见的域下概括。为此，我们提出了用于域概括（Indigo）的固有多模式，这是一种简单而优雅的方式，用于利用这些预训练的多模式网络中存在的固有模态以及视觉模态以增强概括性在测试时间内看不见域。我们在几个领域的概括设置（封闭状态，OPENDG和有限的来源）上进行了实验，并在看不见的域上显示了最新的概括性能。此外，我们提供了彻底的分析，以发展对靛蓝的整体理解。

translated by 谷歌翻译

Model adaptation: Unsupervised domain adaptation without source data

分类：

In this paper, we investigate a challenging unsupervised domain adaptation setting -unsupervised model adaptation. We aim to explore how to rely only on unlabeled target data to improve performance of an existing source prediction model on the target domain, since labeled source data may not be available in some real-world scenarios due to data privacy issues. For this purpose, we propose a new framework, which is referred to as collaborative class conditional generative adversarial net to bypass the dependence on the source data. Specifically, the prediction model is to be improved through generated target-style data, which provides more accurate guidance for the generator. As a result, the generator and the prediction model can collaborate with each other without source data. Furthermore, due to the lack of supervision from source data, we propose a weight constraint that encourages similarity to the source model. A clustering-based regularization is also introduced to produce more discriminative features in the target domain. Compared to conventional domain adaptation methods, our model achieves superior performance on multiple adaptation tasks with only unlabeled target data, which verifies its effectiveness in this challenging setting.

translated by 谷歌翻译

Adapting Self-Supervised Vision Transformers by Probing Attention-Conditioned Masking Consistency

Viraj Prabhu , Sriram Yenamandra , Aaditya Singh , Judy Hoffman

分类：计算机视觉 | 机器学习

2022-06-16

视觉域的适应性（DA）试图将经过训练的模型转移到分发转移的未看到的，未标记的域，但是方法通常着重于适应卷积神经网络体系结构，并使用有监督的成像网表示。在这项工作中，我们将重点转移到将现代体系结构改编成对象识别的重点 - 越来越流行的视觉变压器（VIT）以及基于自我监督的学习（SSL）的现代预测。受到最新SSL方法的启发，该方法是基于通过掩盖或裁剪生成的部分图像输入的学习的 - 要么通过学习预测缺失的像素或学习代表性的不断增强来进行这种增强 - 我们提出了简单的两阶段适应性PACMAC自我监督VIT的算法。 PACMAC首先在汇总源和目标数据上执行内域SSL，以学习任务歧视性特征，然后探究该模型的预测一致性，这些歧视性的一致性是通过新的注意力条件掩盖策略生成的一组部分目标输入，以识别自我候选者的可靠候选者-训练。我们的简单方法导致对使用VIT和对标准对象识别基准的自我监督初始化的竞争方法的性能一致。可在https://github.com/virajprabhu/pacmac上找到代码

translated by 谷歌翻译