在亲自重新识别(REID)中,最近的研究已经验证了未标记的人图像上的模型的预训练要比ImageNet上要好得多。但是,这些研究直接应用了为图像分类设计的现有自我监督学习(SSL)方法,用于REID,而无需在框架中进行任何适应。这些SSL方法将本地视图的输出(例如红色T恤,蓝色短裤)与同时的全球视图相匹配,从而丢失了很多细节。在本文中,我们提出了一种特定于REID的预训练方法,部分意识的自我监督预训练(PASS),该方法可以生成零件级别的功能以提供细粒度的信息,并且更适合REID。通行证将图像分为几个局部区域,每个区域随机裁剪的本地视图都有特定的可学习[部分]令牌。另一方面,所有地方区域的[部分]也附加到全球视图中。通行证学习以匹配同一[部分]上本地视图的输出和全局视图。也就是说,从本地区域获得的本地视图的[部分]仅与从全球视图中学到的相应[部分]相匹配。结果,每个[部分]可以专注于图像的特定局部区域,并提取该区域的细粒度信息。实验显示通行证在Market1501和MSMT17上的新最先进的表演以及各种REID任务(例如Vanilla vit-s/16)通过Pass Achieves 92.2 \%/90.2 \%/88.5 \%地图准确性,例如Vanilla vit-s/16在Market1501上进行监督/UDA/USL REID。我们的代码可在https://github.com/casia-iva-lab/pass-reid上找到。
translated by 谷歌翻译
变形金刚和蒙版语言建模在计算机视觉中很快被视为视觉变压器和蒙版图像建模(MIM)。在这项工作中,我们认为由于图像中令牌的数量和相关性,图像令牌掩盖与文本中的令牌掩盖有所不同。特别是,为了为MIM产生具有挑战性的借口任务,我们主张从随机掩盖到知情掩盖的转变。我们在基于蒸馏的MIM的背景下开发并展示了这一想法,其中教师变压器编码器生成了一个注意力图,我们用它来指导学生为学生指导掩盖。因此,我们引入了一种新颖的掩蔽策略,称为注意引导蒙版(ATTMASK),我们证明了其对基于密集蒸馏的MIM以及基于普通蒸馏的自然剥离的自助力学习的有效性。我们确认ATTMASK可以加快学习过程,并提高各种下游任务的性能。我们在https://github.com/gkakogeorgiou/attmask上提供实现代码。
translated by 谷歌翻译
本文研究了两种技术,用于开发有效的自我监督视觉变压器(ESVIT)进行视觉表示学习。首先,我们通过一项全面的实证研究表明,具有稀疏自我生产的多阶段体系结构可以显着降低建模的复杂性,但具有失去捕获图像区域之间细粒度对应关系的能力的成本。其次,我们提出了一项新的区域匹配训练任务,该任务使模型可以捕获细粒的区域依赖性,因此显着提高了学习视觉表示的质量。我们的结果表明,ESVIT在ImageNet线性探针评估上结合两种技术,在ImageNet线性探针评估中获得了81.3%的TOP-1,优于先前的艺术,其较高吞吐量的顺序幅度约为较高。当转移到下游线性分类任务时,ESVIT在18个数据集中的17个中优于其受监督的对方。代码和模型可公开可用:https://github.com/microsoft/esvit
translated by 谷歌翻译
通过开发基于生成的自我监督学习(SSL)方法,例如Beit和Mae,如何通过掩盖输入图像的随机补丁并重建缺失信息来学习良好的表示形式。但是,Beit和Peco需要一个“预先陈述”阶段,以生成用于掩盖补丁代表的离散代码手册。 MAE不需要预训练的代码簿流程,但是将像素设置为重建目标可能会引入前训练和下游任务之间的优化差距,即良好的重建质量可能并不总是会导致模型的高描述能力。考虑到上述问题,在本文中,我们提出了一个简单的自鉴定的蒙面自动编码器网络,即SDAE。 SDAE由一个使用编码器解码器结构的学生分支组成,以重建缺失的信息,并制作一个师范分支,生产蒙版代币的潜在表示。我们还分析了如何从信息瓶颈的角度来为教师分支机构建立潜在代表性的好看法。之后,我们提出了一种多重掩蔽策略,以提供多个掩盖视图,并具有平衡的信息以提高性能,这也可以降低计算复杂性。我们的方法很好地概括了:只有300个时期预训练,香草vit-base模型在Imagenet-1K分类上达到了84.1%的微调精度,48.6 MIOU在ADE20K细分方面和48.9 coco检测中的MAP,它超过了其他方法,从而超过其他方法。通过相当大的边距。代码可从https://github.com/abrahamyabo/sdae获得。
translated by 谷歌翻译
语言变形金刚的成功主要归因于屏蔽语言建模(MLM)的借口任务,其中文本首先被致以语义有意义的作品。在这项工作中,我们研究了蒙面图像建模(MIM),并指出使用语义有意义的视觉销售器的优缺点。我们提出了一个自我监督的框架IBOT,可以使用在线标记器执行蒙版预测。具体而言,我们在蒙面的补丁令牌上进行自我蒸馏,并将教师网络作为在线标记器,以及在课堂上的自蒸馏来获取视觉语义。在线销售器与MIM目标和分配的多级培训管道共同学习,销售器需要预先预先培训。通过在Imagenet-1K上达到81.6%的线性探测精度和86.3%的微调精度来展示IBOT的突出。除了最先进的图像分类结果之外,我们强调了新兴的局部语义模式,这有助于模型对共同损坏获得强大的鲁棒性,并在密集的下游任务中实现领先的结果,例如,对象检测,实例分割和语义细分。
translated by 谷歌翻译
基于变压器的监督预培训在重新识别(REID)中实现了良好的性能。但是,由于想象成和Reid数据集之间的域间隙,它通常需要更大的预训练数据集(例如,ImageNet-21k),以提高性能,因为变压器的强大数据拟合能力。为了解决这一挑战,这项工作可以分别从数据和模型结构的角度降低预训练和REID数据集之间的差距。我们首先调查在未标记的人物图像(Luperson DataSet)上的视觉变压器(VIV)的自我监督为了进一步降低域间隙并加速预训练,提出了灾难性的遗忘得分(CFS)来评估预训练和微调数据之间的差距。基于CFS,通过采样靠近下游REID数据的相关数据来选择一个子集,并从预训练的数据集中过滤无关数据。对于模型结构,提出了一种名为基于IBN的卷积词条(ICS)的特定于REID的模块来通过学习更不变的功能来弥合域间隙。已经进行了广泛的实验,以微调在监督学习,无监督域适应(UDA)和无监督的学习(USL)设置下进行预训练模型。我们成功将Luperson DataSet缩小为50%,没有性能下降。最后,我们在市场-1501和MSMT17上实现了最先进的表现。例如,我们的VIT-S / 16在Market1501上实现了91.3%/ 89.9%/ 89.6%用于监督/ UDA / USL REID的11501。代码和模型将发布到https://github.com/michuanhaohao/transreid -sl。
translated by 谷歌翻译
蒙面图像建模(MIM)在各种视觉任务上取得了令人鼓舞的结果。但是,学到的表示形式的有限可区分性表现出来,使一个更强大的视力学习者还有很多值得一试。为了实现这一目标,我们提出了对比度蒙面的自动编码器(CMAE),这是一种新的自我监督的预训练方法,用于学习更全面和有能力的视觉表示。通过详细统一的对比度学习(CL)和掩盖图像模型(MIM),CMAE利用了它们各自的优势,并以强大的实例可辨别性和局部的可感知来学习表示形式。具体而言,CMAE由两个分支组成,其中在线分支是不对称的编码器编码器,而目标分支是动量更新的编码器。在培训期间,在线编码器从蒙面图像的潜在表示中重建了原始图像,以学习整体特征。馈送完整图像的目标编码器通过其在线学习通过对比度学习增强了功能可区分性。为了使CL与MIM兼容,CMAE引入了两个新组件,即用于生成合理的正视图和特征解码器的像素移位,以补充对比度对的特征。多亏了这些新颖的设计,CMAE可以有效地提高了MIM对应物的表示质量和转移性能。 CMAE在图像分类,语义分割和对象检测的高度竞争基准上实现了最先进的性能。值得注意的是,CMAE-BASE在Imagenet上获得了$ 85.3 \%$ $ TOP-1的准确性和$ 52.5 \%$ MIOU的ADE20K,分别超过了$ 0.7 \%\%$ $和$ 1.8 \%$ $。代码将公开可用。
translated by 谷歌翻译
我们提出了一项新的自我监督的预测变压器预测,以进行密集的预测任务。它基于将像素级表示与全局图像表示形式进行比较的对比损失。该策略可产生更好的本地功能,适用于密集的预测任务,而不是基于全球图像表示的对比预训练。此外,我们的方法不会遭受批次大小的减小,因为对比度损失所需的负面示例数量是局部特征数量的顺序。我们证明了训练策略对两个密集预测任务的有效性:语义分割和单眼深度估计。
translated by 谷歌翻译
无监督的语义分割旨在在没有手动注释的情况下获得高级视觉功能的高级语义表示。大多数现有方法是基于其视觉提示或某些预定义规则尝试将像素分组为区域的自下而上的方法。因此,在具有多个对象的复杂场景和共享类似的视觉外观的某些对象时,这些自下而上的方法难以产生细粒度的语义分割。相比之下,我们提出了一个在极其复杂的情景中的细粒度分割的第一个自上而下的无监督语义分割框架。具体而言,我们首先以自我监督的学习方式从大规模视觉数据中获得丰富的高级结构化语义概念信息,并在发现目标数据集中呈现的潜在语义类别之前使用此类信息。其次,通过计算关于某些发现的语义表示的类激活地图(CAM)来计算发现的高电平语义类别以映射到低级像素特征。最后,所获得的凸轮用作伪标签,以培训分割模块并产生最终的语义分割。多个语义分割基准测试的实验结果表明,我们的自上而下的无监督分割对于对象为中心和以场景为中心的数据集,在不同的语义粒度水平下,并且优于所有最新的最先进的自下而上方法。我们的代码可用于\ URL {https://github.com/damo-cv/transfgugu}。
translated by 谷歌翻译
现有人重新识别(Reid)方法通常直接加载预先训练的ImageNet权重以进行初始化。然而,作为一个细粒度的分类任务,Reid更具挑战性,并且存在于想象成分类之间的大域差距。在本文中,通过自我监督的代表性的巨大成功的巨大成功,在本文中,我们为基于对比学习(CL)管道的对比训练,为REID设计了一个无人监督的训练框架,被称为上限。在预培训期间,我们试图解决学习细粒度的重点问题的两个关键问题:(1)CL流水线中的增强可能扭曲人物图像中的鉴别条款。 (2)未完全探索人物图像的细粒度局部特征。因此,我们在Up-Reid中引入了一个身份内 - 身份(i $ ^ 2 $ - )正则化,该正常化是从全局图像方面和本地补丁方面的两个约束:在增强和原始人物图像之间强制强制实施全局一致性为了增加增强的稳健性,而使用每个图像的本地斑块之间的内在对比度约束来完全探索局部鉴别的线索。在多个流行的RE-ID数据集上进行了广泛的实验,包括PersonX,Market1501,CuHK03和MSMT17,表明我们的上部Reid预训练模型可以显着使下游REID微调和实现最先进的性能。代码和模型将被释放到https://github.com/frost-yang-99/up -reid。
translated by 谷歌翻译
自我监督的预制是自然语言处理模型的首选方法,在许多愿景任务中迅速获得普及。最近,自我监督的预借鉴已经显示出胜过许多下游视觉应用的预测,标志着该地区的里程碑。这种优越性归因于传达多个概念的训练图像的不完全标记的负面影响,而是使用单个主要类标签进行注释。虽然自我监督的学习(SSL)原则上没有这种限制,但促进SSL的借口任务的选择是通过向单个概念输出驱动学习过程来实现这种缺点。本研究旨在调查在不使用标签的情况下建模图像中存在的所有概念的可能性。在这方面,所提出的SSL帧工作MC-SSL0.0是迈向多概念自我监督学习(MC-SSL)的步骤,其超出了在图像中建模的单一主导标签,以有效地利用来自所有概念的所有概念在里面。 MC-SSL0.0由两个核心设计概念,组屏蔽模型学习和学习伪概念,用于使用势头(教师学生)框架的数据令牌。多标签和多类图像分类下游任务的实验结果表明,MC-SSL0.0不仅超越了现有的SSL方法,而且超越了监督转移学习。源代码将公开可供社区培训更大的语料库。
translated by 谷歌翻译
Person re-identification plays a significant role in realistic scenarios due to its various applications in public security and video surveillance. Recently, leveraging the supervised or semi-unsupervised learning paradigms, which benefits from the large-scale datasets and strong computing performance, has achieved a competitive performance on a specific target domain. However, when Re-ID models are directly deployed in a new domain without target samples, they always suffer from considerable performance degradation and poor domain generalization. To address this challenge, we propose a Deep Multimodal Fusion network to elaborate rich semantic knowledge for assisting in representation learning during the pre-training. Importantly, a multimodal fusion strategy is introduced to translate the features of different modalities into the common space, which can significantly boost generalization capability of Re-ID model. As for the fine-tuning stage, a realistic dataset is adopted to fine-tune the pre-trained model for better distribution alignment with real-world data. Comprehensive experiments on benchmarks demonstrate that our method can significantly outperform previous domain generalization or meta-learning methods with a clear margin. Our source code will also be publicly available at https://github.com/JeremyXSC/DMF.
translated by 谷歌翻译
自欺欺人的学习(SSL)由于能够学习任务不足的表示而没有人类注释的能力,因此对遥感和地球观察引起了极大的兴趣。尽管大多数现有的SSL在遥感中起作用,利用Convnet骨架并专注于单个模态,但我们探索了视觉变压器(VIT)的潜在,用于关节SAR-OCTICATION学习。基于Dino,一种最先进的SSL算法,它从输入图像的两个增强视图中提取知识,我们通过将所有通道串联到统一输入来结合SAR和光学图像。随后,我们随机掩盖了一种模式作为数据增强策略的通道。在训练期间,该模型将被喂养仅光学,仅SAR-SAR-SAR-SAR-OFICATION图像对学习内部和模式内表示。使用BigeArthnet-MM数据集的实验结果证明了VIT骨架和拟议的多模式SSL算法Dino-MM的好处。
translated by 谷歌翻译
自我监督方法的下游精度与在训练过程中解决的代理任务以及从中提取的梯度的质量紧密相关。更丰富,更有意义的梯度更新是允许自我监督的方法以更有效的方式学习的关键。在典型的自我验证框架中,两个增强图像的表示在全球层面是连贯的。尽管如此,将本地线索纳入代理任务可能是有益的,并提高了下游任务的模型准确性。这导致了一个双重目标,一方面,全球代表之间的连贯性是强大的,另一方面,在本地代表之间的一致性得到了强大的一致性。不幸的是,两组局部代表之间的确切对应映射并不存在,这使得将局部代表从一个增强到另一个不平凡的任务匹配。我们建议利用输入图像中的空间信息获得几何匹配,并根据基于相似性匹配的几何方法与以前的方法进行比较。我们的研究表明,不仅1)几何匹配的表现优于低数据表格中的基于相似性的匹配,而且还有2)与没有局部自我验证的香草基线相比,基于相似性的匹配在低数据方面受到了极大的伤害。该代码将在接受后发布。
translated by 谷歌翻译
Models should be able to adapt to unseen data during test-time to avoid performance drops caused by inevitable distribution shifts in real-world deployment scenarios. In this work, we tackle the practical yet challenging test-time adaptation (TTA) problem, where a model adapts to the target domain without accessing the source data. We propose a simple recipe called \textit{Data-efficient Prompt Tuning} (DePT) with two key ingredients. First, DePT plugs visual prompts into the vision Transformer and only tunes these source-initialized prompts during adaptation. We find such parameter-efficient finetuning can efficiently adapt the model representation to the target domain without overfitting to the noise in the learning objective. Second, DePT bootstraps the source representation to the target domain by memory bank-based online pseudo-labeling. A hierarchical self-supervised regularization specially designed for prompts is jointly optimized to alleviate error accumulation during self-training. With much fewer tunable parameters, DePT demonstrates not only state-of-the-art performance on major adaptation benchmarks VisDA-C, ImageNet-C, and DomainNet-126, but also superior data efficiency, i.e., adaptation with only 1\% or 10\% data without much performance degradation compared to 100\% data. In addition, DePT is also versatile to be extended to online or multi-source TTA settings.
translated by 谷歌翻译
最近的蒙版图像建模(MIM)在自我监督学习(SSL)中受到了很多关注,该学习要求目标模型恢复输入图像的掩盖部分。尽管基于MIM的预训练方法在转移到许多下游任务时达到了新的最新性能,但可视化表明,与基于基于对比性学习预训练相比,学习的表示形式不可分割,尤其是相比。这激发了我们思考MIM预培训表示的线性可分离性是否可以进一步改善,从而改善了训练的性能。由于MIM和对比度学习倾向于利用不同的数据增强和培训策略,因此将这两个借口任务结合起来并不是微不足道的。在这项工作中,我们提出了一个新颖而灵活的预训练框架,名为Mimco,该框架通过两阶段的预培训结合了MIM和对比度学习。具体而言,MIMCO将预先训练的对比学习模型作为教师模型,并通过两种类型的学习目标进行了预培训:贴片级和图像级的重建损失。关于下游任务的广泛转移实验证明了我们的MIMCO预训练框架的出色表现。以VIT-S为例,当使用预先训练的MoCov3-Vit-S作为教师模型时,Mimco只需要100个时期的预训练时期即可达到Imagenet-1K上的82.53%Top-1 FineTuning精度,这表现优于表现最先进的自我监督学习对手。
translated by 谷歌翻译
尽管自我监督的表示学习(SSL)受到社区的广泛关注,但最近的研究认为,当模型大小降低时,其性能将遭受悬崖的下降。当前的方法主要依赖于对比度学习来训练网络,在这项工作中,我们提出了一种简单而有效的蒸馏对比学习(Disco),以大幅度减轻问题。具体而言,我们发现主流SSL方法获得的最终嵌入包含最富有成果的信息,并建议提炼最终的嵌入,以最大程度地将教师的知识传播到轻量级模型中,通过约束学生的最后嵌入与学生的最后嵌入,以使其与该模型保持一致。老师。此外,在实验中,我们发现存在一种被称为蒸馏瓶颈的现象,并存在以扩大嵌入尺寸以减轻此问题。我们的方法在部署过程中不会向轻型模型引入任何额外的参数。实验结果表明,我们的方法在所有轻型模型上都达到了最先进的作用。特别是,当使用RESNET-101/RESNET-50用作教师教授有效网络-B0时,Imagenet上有效网络B0的线性结果非常接近Resnet-101/Resnet-50,但是有效网络B0的参数数量仅为9.4 \%/16.3 \%Resnet-101/resnet-50。代码可从https:// github获得。 com/yuting-gao/disco-pytorch。
translated by 谷歌翻译
最近在自我监督学习中的最先进的框架最近表明,与传统的CNN型号相比,基于变压器的模型可以导致性能提升。繁荣以最大化图像的两个视图的相互信息,现有的作品对最终陈述具有对比损失。在我们的工作中,我们通过通过对比损失允许中间表示从最终层学习来进一步利用这一点,这可以最大化原始目标的上限和两层之间的相互信息。我们的方法,自蒸馏自我监督学习(SDSSL),胜过竞争基础(SIMCLR,BYOL和MOCO V3)使用各种任务和数据集。在线性评估和K-NN协议中,SDSSL不仅导致最终层的性能优异,而且在大多数下层中也是如此。此外,正负对准用于解释如何更有效地形成表示。代码将可用。
translated by 谷歌翻译
尽管已显示自我监督的学习受益于许多视觉任务,但现有技术主要集中在图像级操作上,这可能无法很好地概括为补丁或像素级别的下游任务。此外,现有的SSL方法可能无法充分描述和关联图像量表内和跨图像量表的上述表示。在本文中,我们提出了一个自制的金字塔表示学习(SS-PRL)框架。所提出的SS-PRL旨在通过学习适当的原型在斑块级别得出金字塔表示,并在图像中观察和关联固有的语义信息。特别是,我们在SS-PRL中提出了跨尺度贴片级的相关性学习,该学习允许模型汇总和关联信息跨贴片量表。我们表明,借助我们提出的用于模型预训练的SS-PRL,可以轻松适应和调整模型,以适应各种应用程序,包括多标签分类,对象检测和实例分割。
translated by 谷歌翻译