自我监督的学习表现出优于各种视觉基准的监督方法。暹罗网络鼓励嵌入是扭曲的不变,是最成功的自我观察的视觉表示学习方法之一。在所有增强方法中,掩盖是最通用,最直接的方法,它有可能应用于各种输入,并且需要最少的域知识。但是,蒙面的暹罗网络需要特殊的归纳偏见,并且实际上仅与视觉变压器配合得很好。这项工作从经验上研究了用Convnets掩盖暹罗网络背后的问题。我们提出了几种经验设计,以逐渐克服这些问题。我们的方法在低射击图像分类方面竞争性能,并且优于对象检测基准测试的先前方法。我们讨论了剩余的几个问题,希望这项工作可以为未来的通用自我监督学习提供有用的数据点。
translated by 谷歌翻译
本文提出了一种可扩展的方法,用于同时学习单个令牌和整体实例表示的分布式表示。我们使用自我注意解区块代表分布式令牌,然后是跨注意区块来汇总整体实例。该方法的核心是使用极大的令牌掩蔽(75%-90%)作为监督的数据增加。我们的模型命名为Oxtreara,遵循普通的BYOL方法,其中训练了来自未掩盖子集的实例表示从完整的输入中预测。学习需要模型在实例中捕获信息的变化,而不是鼓励不变。本文有三个贡献:1)随机掩盖是一种强大而有效的数据增强,用于学习可推广的注意力表示。 2)每个实例进行多次抽样,极端掩盖会大大加快学习的速度,并渴望获得更多数据。 3)与蒙版建模中的to徒监督不同,可以单独从实例监督中学到分布式表示形式。
translated by 谷歌翻译
蒙面图像建模(MIM)在各种视觉任务上取得了令人鼓舞的结果。但是,学到的表示形式的有限可区分性表现出来,使一个更强大的视力学习者还有很多值得一试。为了实现这一目标,我们提出了对比度蒙面的自动编码器(CMAE),这是一种新的自我监督的预训练方法,用于学习更全面和有能力的视觉表示。通过详细统一的对比度学习(CL)和掩盖图像模型(MIM),CMAE利用了它们各自的优势,并以强大的实例可辨别性和局部的可感知来学习表示形式。具体而言,CMAE由两个分支组成,其中在线分支是不对称的编码器编码器,而目标分支是动量更新的编码器。在培训期间,在线编码器从蒙面图像的潜在表示中重建了原始图像,以学习整体特征。馈送完整图像的目标编码器通过其在线学习通过对比度学习增强了功能可区分性。为了使CL与MIM兼容,CMAE引入了两个新组件,即用于生成合理的正视图和特征解码器的像素移位,以补充对比度对的特征。多亏了这些新颖的设计,CMAE可以有效地提高了MIM对应物的表示质量和转移性能。 CMAE在图像分类,语义分割和对象检测的高度竞争基准上实现了最先进的性能。值得注意的是,CMAE-BASE在Imagenet上获得了$ 85.3 \%$ $ TOP-1的准确性和$ 52.5 \%$ MIOU的ADE20K,分别超过了$ 0.7 \%\%$ $和$ 1.8 \%$ $。代码将公开可用。
translated by 谷歌翻译
最近,蒙面图像建模(MIM)在自我监视的视觉识别方面取得了巨大的成功。但是,作为一个基于重建的框架,了解MIM的工作原理仍然是一个悬而未决的问题,因为MIM与以前研究过的暹罗方法(例如对比度学习)有很大不同。在本文中,我们提出了一个新的观点:MIM隐含地学习咬合不变特征,这与其他暹罗方法类似,而后者则学习其他不变性。通过将MIM公式放松为等效的暹罗形式,可以用常规方法在统一框架中解释MIM方法,其中只有a)数据转换,即学习什么不变性,b)相似性测量是不同的。此外,以Mae(He等)为MIM的一个代表性示例,我们从经验上发现MIM模型的成功与选择相似性功能的选择有点联系,但是蒙面图像引入了学习的咬合不变特征 - 事实证明对于视觉变压器来说,这是一个受欢迎的初始化,即使学习的功能可能不太语义。我们希望我们的发现能够激发研究人员在计算机视觉社区中开发更强大的自我监督方法。
translated by 谷歌翻译
自我监督学习(SSL)在各种下游视觉任务上表现出色。已经提出了两个主流SSL框架,即实例歧视(ID)和蒙版图像建模(MIM)。 ID从同一图像中汇总了不同视图的表示,同时避免了特征崩溃。它在线性探测器上表现良好,但在检测性能方面较低。另一方面,MIM重建了给定的蒙版图像的原始内容。它在密集的预测下表现出色,但在线性探测方面表现不佳。它们的区别是由于忽略语义一致性或空间敏感性的表示要求而引起的。具体而言,我们观察到(1)语义对齐要求在语义上相似的观点要投影到附近的代表中,这可以通过将不同的观点与强烈的增强进行对比来实现; (2)空间灵敏度需要对图像中的局部结构进行建模。因此,用掩盖图像预测致密表示是有益的,因为它模拟了图像含量的条件分布。在这些分析的驱动下,我们提出了暹罗图像建模(SIM),该图像模型(SIM)预测了增强视图的密集表示,基于来自同一图像的另一种掩盖视图,但具有不同的增强。我们的方法使用一个带有两个分支的暹罗网络。在线分支编码第一个视图,并根据这两个视图之间的相对位置预测第二视图的表示。目标分支通过编码第二视图来产生目标。通过这种方式,我们能够分别使用ID和MIM实现可比的线性探测和密集的预测性能。我们还证明,可以在没有全球损失的情况下获得体面的线性探测结果。代码应在https://github.com/fundamentalvision/siamese-image-modeling上发布。
translated by 谷歌翻译
近年来,基于对比的自我监督学习方法取得了巨大的成功。但是,自学要求非常长的训练时期(例如,MoCO V3的800个时代)才能获得有希望的结果,这对于一般学术界来说是不可接受的,并阻碍了该主题的发展。这项工作重新审视了基于动量的对比学习框架,并确定了两种增强观点仅产生一个积极对的效率低下。我们提出了快速MOCO-一个新颖的框架,该框架利用组合贴片从两个增强视图中构造了多对正面,该视图提供了丰富的监督信号,这些信号带来了可忽视的额外计算成本,从而带来了显着的加速。经过100个时期训练的快速MOCO实现了73.5%的线性评估精度,类似于经过800个时期训练的MOCO V3(Resnet-50骨干)。额外的训练(200个时期)进一步将结果提高到75.1%,这与最先进的方法相当。几个下游任务的实验也证实了快速MOCO的有效性。
translated by 谷歌翻译
许多最近的自我监督学习方法在图像分类和其他任务上表现出了令人印象深刻的表现。已经使用了一种令人困惑的多种技术,并不总是清楚地了解其收益的原因,尤其是在组合使用时。在这里,我们将图像的嵌入视为点粒子,并将模型优化视为该粒子系统上的动态过程。我们的动态模型结合了类似图像的吸引力,避免局部崩溃的局部分散力以及实现颗粒的全球均匀分布的全局分散力。动态透视图突出了使用延迟参数图像嵌入(a la byol)以及同一图像的多个视图的优点。它还使用纯动态的局部分散力(布朗运动),该分散力比其他方法显示出改善的性能,并且不需要其他粒子坐标的知识。该方法称为MSBREG,代表(i)多视质心损失,它施加了吸引力的力来将不同的图像视图嵌入到其质心上,(ii)奇异值损失,将粒子系统推向空间均匀的密度( iii)布朗扩散损失。我们评估MSBREG在ImageNet上的下游分类性能以及转移学习任务,包括细粒度分类,多类对象分类,对象检测和实例分段。此外,我们还表明,将我们的正则化术语应用于其他方法,进一步改善了其性能并通过防止模式崩溃来稳定训练。
translated by 谷歌翻译
尽管增加了大量的增强家庭,但只有几个樱桃采摘的稳健增强政策有利于自我监督的图像代表学习。在本文中,我们提出了一个定向自我监督的学习范式(DSSL),其与显着的增强符号兼容。具体而言,我们在用标准增强的视图轻度增强后调整重增强策略,以产生更难的视图(HV)。 HV通常具有与原始图像较高的偏差而不是轻度增强的标准视图(SV)。与以前的方法不同,同等对称地将所有增强视图对称地最大化它们的相似性,DSSL将相同实例的增强视图视为部分有序集(具有SV $ \ LeftrightArrow $ SV,SV $ \左路$ HV),然后装备一个定向目标函数尊重视图之间的衍生关系。 DSSL可以轻松地用几行代码实现,并且对于流行的自我监督学习框架非常灵活,包括SIMCLR,Simsiam,Byol。对CiFar和Imagenet的广泛实验结果表明,DSSL可以稳定地改善各种基线,其兼容性与更广泛的增强。
translated by 谷歌翻译
尽管最近通过剩余网络的代表学习中的自我监督方法取得了进展,但它们仍然对ImageNet分类基准进行了高度的监督学习,限制了它们在性能关键设置中的适用性。在MITROVIC等人的现有理论上洞察中建立2021年,我们提出了RELICV2,其结合了明确的不变性损失,在各种适当构造的数据视图上具有对比的目标。 Relicv2在ImageNet上实现了77.1%的前1个分类准确性,使用线性评估使用Reset50架构和80.6%,具有较大的Reset型号,优于宽边缘以前的最先进的自我监督方法。最值得注意的是,RelicV2是使用一系列标准Reset架构始终如一地始终优先于类似的对比较中的监督基线的第一个表示学习方法。最后,我们表明,尽管使用Reset编码器,Relicv2可与最先进的自我监控视觉变压器相媲美。
translated by 谷歌翻译
大规模数据集的预培训模型,如想象成,是计算机视觉中的标准实践。此范例对于具有小型培训套的任务特别有效,其中高容量模型往往会过度装备。在这项工作中,我们考虑一个自我监督的预训练场景,只能利用目标任务数据。我们考虑数据集,如斯坦福汽车,草图或可可,这是比想象成小的数量的顺序。我们的研究表明,在本文中介绍的Beit或诸如Beit或Variant的去噪对预训练数据的类型和大小比通过比较图像嵌入来训练的流行自我监督方法更加强大。我们获得了竞争性能与ImageNet预训练相比,来自不同域的各种分类数据集。在Coco上,当专注于使用Coco Images进行预训练时,检测和实例分割性能超过了可比设置中的监督Imagenet预训练。
translated by 谷歌翻译
本文显示屏蔽的自动化器(MAE)是可扩展的自我监督学习者,用于计算机愿景。我们的MAE方法很简单:我们掩盖输入图像的随机补丁并重建缺失像素。它基于两个核心设计。首先,我们开发一个不对称的编码器解码器架构,其中编码器仅在掩码的可见子集(没有掩码令牌)上,以及重量解码器,该重量解码器从潜像和掩码令牌重建原始图像。其次,我们发现掩蔽了高比例的输入图像,例如,75%,产生非凡和有意义的自我监督任务。耦合这两种设计使我们能够有效且有效地培训大型模型:我们加速培训(3倍或更多)并提高准确性。我们可扩展的方法允许学习概括的高容量模型:例如,Vanilla Vit-Maxim模型在使用Imagenet-1K数据的方法中实现最佳准确性(87.8%)。下游任务中的转移性能优于监督预培训并显示有前途的缩放行为。
translated by 谷歌翻译
对计算机视觉的自我监督学习取得了巨大的进步,并改善了许多下游视觉任务,例如图像分类,语义细分和对象检测。其中,诸如MAE和Beit之类的生成性自我监督的视力学习方法显示出令人鼓舞的表现。但是,它们的全球掩盖重建机制在计算上是要求的。为了解决这个问题,我们提出了本地蒙版重建(LOMAR),这是一种简单而有效的方法,在一个简单的变压器编码器上的7 $ \ times $ 7补丁中执行蒙版重建,从而提高了效率和准确性之间的权衡。在整个图像上全局掩盖重建。广泛的实验表明,Lomar在Imagenet-1K分类方面达到了84.1%的TOP-1准确性,优于MAE的MAE比0.5%。在以384 $ \ times $ 384的图像为审计的LOMAR进行了预审经后,它可以达到85.4%的TOP-1准确性,超过MAE的0.6%。在MS Coco上,Lomar在0.5 $ \ text {ap}^\ text {box} $上以0.5 $ \ text {ap}^\ text {box} $的优势在对象检测上和0.5 $ \ text {ap}^\ text^\ text {bask} $上的实例段上。 Lomar在预处理的高分辨率图像上特别有效,例如,它比MAE快3.1 $ \ times $,分类准确性为448 $ \ times $ 448 $ 448。这种本地掩盖的重建学习机制可以轻松地集成到任何其他生成的自我监督学习方法中。我们的代码可在https://github.com/junchen14/lomar中公开获得。
translated by 谷歌翻译
自我监督学习中的最新作品通过以对象为中心或基于区域的对应目标进行预处理,在场景级密集的预测任务上表现出了强劲的表现。在本文中,我们介绍了区域对象表示学习(R2O),该学习统一了基于区域的和以对象为中心的预处理。 R2O通过训练编码器以动态完善基于区域的段为中心的蒙版,然后共同学习掩模中内容的表示形式。 R2O使用“区域改进模块”将使用区域级先验生成的小图像区域分组为较大的区域,这些区域倾向于通过聚类区域级特征对应对应对象。随着训练的进展,R2O遵循了一个区域到对象的课程,该课程鼓励学习区域级的早期特征并逐渐进步以训练以对象为中心的表示。使用R2O的表示形式导致了Pascal VOC(+0.7 MIOU)和CityScapes(+0.4 MIOU)的语义细分表现最先进的表现,并在MS Coco(+0.3 Mask AP)上进行了实例细分。此外,在对Imagenet进行了预审进之后,R2O预处理的模型能够超过Caltech-UCSD Birds 200-2011数据集(+2.9 MIOU)的无监督物体细分中现有的最新对象细分。我们在https://github.com/kkallidromitis/r2o上提供了这项工作的代码/模型。
translated by 谷歌翻译
在这项工作中,我们研究了对象检测模型的自我监督预审计的不同方法。我们首先设计一个通用框架,通过随机采样和投射框来学习从图像中学习空间一致的密集表示,并将其投影到每个增强视图,并最大程度地提高相应的盒子功能之间的相似性。我们研究文献中的现有设计选择,例如盒子生成,功能提取策略,并使用其在实例级图像表示学习技术上获得成功启发的多种视图。我们的结果表明,该方法对超参数的不同选择是可靠的,并且使用多个视图不如实例级图像表示学习所显示的那样有效。我们还设计了两个辅助任务,以通过(1)通过使用对比度损失从采样设置中预测盒子中的一个视图中的框来预测框,并且(2)使用变压器预测盒子坐标,这可能会受益。下游对象检测任务。我们发现,在标记数据上预审计的模型时,这些任务不会导致更好的对象检测性能。
translated by 谷歌翻译
Self-supervised learning (SSL) is rapidly closing BARLOW TWINS is competitive with state-of-the-art methods for self-supervised learning while being conceptually simpler, naturally avoiding trivial constant (i.e. collapsed) embeddings, and being robust to the training batch size.
translated by 谷歌翻译
自我监督学习(SSL)的承诺是利用大量未标记的数据来解决复杂的任务。尽管简单,图像级学习取得了出色的进步,但最新方法显示出包括图像结构知识的优势。但是,通过引入手工制作的图像分割来定义感兴趣的区域或专门的增强策略,这些方法牺牲了使SSL如此强大的简单性和通用性。取而代之的是,我们提出了一个自我监督的学习范式,该学习范式本身会发现这种图像结构。我们的方法,ODIN,夫妻对象发现和表示网络,以发现有意义的图像分割,而无需任何监督。由此产生的学习范式更简单,更易碎,更一般,并且取得了最先进的转移学习结果,以进行对象检测和实例对可可的细分,以及对Pascal和CityScapes的语义细分,同时超过监督的预先培训,用于戴维斯的视频细分。
translated by 谷歌翻译
我们提出了引导蒙面的自动编码器(bootmae),这是一种新的视觉BERT预训练方法。 Bootmae用两个核心设计改进了原始的蒙版自动编码器(MAE):1)动量编码器,该动量编码器可作为额外的BERT预测目标提供在线功能; 2)试图降低编码器的压力以记住目标特定信息的靶向解码器。第一个设计的动机是通过观察到的,即使用预定的MAE提取特征,因为掩盖令牌的BERT预测目标可以实现更好的预训练性能。因此,我们与原始的MAE编码器并行添加了一个动量编码器,该编码器通过将其自己的表示作为BERT预测目标来引导预处理性能。在第二个设计中,我们将特定于目标的信息(例如,未掩盖贴片的像素值)直接传达到解码器中,以减少记住目标特定信息的编码器的压力。因此,编码器专注于语义建模,这是BERT预训练的目的,并且不需要浪费其在记住与预测目标相关的未掩盖令牌的信息时的能力。通过广泛的实验,我们的Bootmae在ImageNet-1k上获得了$ 84.2 \%$ $ $ $+0.8 \%$在同一预训练时期。 Bootmae还获得了$+1.0 $ MIOU在ADE20K上的语义细分和$+1.3 $ box ap,$+1.4 $+1.4 $ bask ap改进对象检测和可可数据集上的细分。代码在https://github.com/lightdxy/bootmae上发布。
translated by 谷歌翻译
The pretrain-finetune paradigm in modern computer vision facilitates the success of self-supervised learning, which tends to achieve better transferability than supervised learning. However, with the availability of massive labeled data, a natural question emerges: how to train a better model with both self and full supervision signals? In this paper, we propose Omni-suPErvised Representation leArning with hierarchical supervisions (OPERA) as a solution. We provide a unified perspective of supervisions from labeled and unlabeled data and propose a unified framework of fully supervised and self-supervised learning. We extract a set of hierarchical proxy representations for each image and impose self and full supervisions on the corresponding proxy representations. Extensive experiments on both convolutional neural networks and vision transformers demonstrate the superiority of OPERA in image classification, segmentation, and object detection. Code is available at: https://github.com/wangck20/OPERA.
translated by 谷歌翻译
蒙面的自动编码器是可扩展的视觉学习者,因为Mae \ Cite {He2022masked}的标题表明,视觉中的自我监督学习(SSL)可能会采用与NLP中类似的轨迹。具体而言,具有蒙版预测(例如BERT)的生成借口任务已成为NLP中的事实上的标准SSL实践。相比之下,他们的歧视性对应物(例如对比度学习)掩埋了视力中的生成方法的早期尝试;但是,蒙版图像建模的成功已恢复了屏蔽自动编码器(过去通常被称为DeNosing AutoCoder)。作为在NLP中与Bert弥合差距的一个里程碑,蒙面自动编码器吸引了对SSL在视觉及其他方面的前所未有的关注。这项工作对蒙面自动编码器进行了全面的调查,以洞悉SSL的有希望的方向。作为第一个使用蒙版自动编码器审查SSL的人,这项工作通过讨论其历史发展,最新进度以及对不同应用的影响,重点介绍其在视觉中的应用。
translated by 谷歌翻译
我们提出了Adios,这是一个用于自我监督学习的遮罩图像模型(MIM)框架,同时使用对抗性目标学习掩盖功能和图像编码器。对图像编码器进行了训练,以最大程度地减少原始图像的表示形式与蒙版图像的表示之间的距离。相反,掩蔽函数旨在最大化此距离。阿迪奥斯(Adios)始终改进有关各种任务和数据集的最先进的自我监督学习(SSL)方法 - 包括Imagenet100和STL10上的分类,CIFAR10/100上的转移学习,Flowers102和Inaturalist,以及鲁棒性在背景挑战中进行了评估(Xiao等,2021) - 同时产生语义意义的面具。与MAE,BEIT和IBOT等现代MIM模型不同,Adios不依赖视觉变压器的图像斑点令牌构造,并且可以用卷积的骨架来实现。我们进一步证明,与对流行MIM模型中使用的掩盖方案相比,阿迪奥斯学到的面具在改善SSL方法的表示方面更有效。
translated by 谷歌翻译