尽管自我监督的学习技术通常用于通过建模多种观点来从未标记的数据中挖掘隐性知识,但尚不清楚如何在复杂且不一致的环境中执行有效的表示学习。为此,我们提出了一种方法,特别是一致性和互补网络(Coconet),该方法利用了严格的全局视图一致性和局部跨视图互补性,以维护正则化,从而从多个视图中全面学习表示形式。在全球阶段,我们认为关键知识在观点之间隐含地共享,并增强编码器以从数据中捕获此类知识可以提高学习表示表示的可区分性。因此,保留多种观点的全球一致性可确保获得常识。 Coconet通过利用基于广义切成薄片的Wasserstein距离利用有效的差异度量测量来对齐视图的概率分布。最后,在本地阶段,我们提出了一个启发式互补性因素,该因素是跨观看歧视性知识的,它指导编码者不仅要学习视图的可辨别性,而且还学习跨视图互补信息。从理论上讲,我们提供了我们提出的椰子的基于信息理论的分析。从经验上讲,为了研究我们方法的改善,我们进行了足够的实验验证,这表明椰子的表现优于最先进的自我监督方法,这证明了这种隐含的一致性和互补性可以增强正则化的能力潜在表示的可区分性。
translated by 谷歌翻译
对比度学习重要的是什么?我们认为,对比度学习在很大程度上取决于信息丰富的特征或“硬”(正面或负面)特征。早期作品包括通过应用复杂的数据增强和较大的批量尺寸或内存库以及最近的作品设计精心设计的采样方法来探索信息丰富的功能,包括更有信息的功能。探索此类功能的关键挑战是,通过应用随机数据增强来生成源多视图数据,这使得始终在增强数据中添加有用的信息是不可行的。因此,从这种增强数据中学到的功能的信息有限。作为回应,我们建议直接增强潜在空间中的特征,从而在没有大量输入数据的情况下学习判别性表示。我们执行一种元学习技术来构建通过考虑编码器的性能来更新其网络参数的增强生成器。但是,输入数据不足可能会导致编码器学习折叠功能,从而导致增强发生器故障。在目标函数中进一步添加了新的注入边缘的正则化,以避免编码器学习退化映射。为了对比一个梯度背部传播步骤中的所有特征,我们采用了提出的优化驱动的统一对比损失,而不是常规的对比损失。从经验上讲,我们的方法在几个基准数据集上实现了最新的结果。
translated by 谷歌翻译
作为一种成功的自我监督学习方法,对比学习旨在学习输入样本扭曲之间共享的不变信息。尽管对比度学习在抽样策略和架构设计方面取得了持续的进步,但仍然存在两个持续的缺陷:任务 - 核定信息的干扰和样本效率低下,这与琐碎的恒定解决方案的反复存在有关。从维度分析的角度来看,我们发现尺寸的冗余和尺寸混杂因素是现象背后的内在问题,并提供了实验证据来支持我们的观点。我们进一步提出了一种简单而有效的方法metamask,这是元学习学到的维度面膜的缩写,以学习反对维度冗余和混杂因素的表示形式。 MetAmask采用冗余技术来解决尺寸的冗余问题,并创新地引入了尺寸掩模,以减少包含混杂因子的特定维度的梯度效应,该效果通过采用元学习范式进行培训,以改善掩盖掩盖性能的目标典型的自我监督任务的表示。与典型的对比方法相比,我们提供了坚实的理论分析以证明元掩体可以获得下游分类的更严格的风险范围。从经验上讲,我们的方法在各种基准上实现了最先进的性能。
translated by 谷歌翻译
Humans view the world through many sensory channels, e.g., the long-wavelength light channel, viewed by the left eye, or the high-frequency vibrations channel, heard by the right ear. Each view is noisy and incomplete, but important factors, such as physics, geometry, and semantics, tend to be shared between all views (e.g., a "dog" can be seen, heard, and felt). We investigate the classic hypothesis that a powerful representation is one that models view-invariant factors. We study this hypothesis under the framework of multiview contrastive learning, where we learn a representation that aims to maximize mutual information between different views of the same scene but is otherwise compact. Our approach scales to any number of views, and is viewagnostic. We analyze key properties of the approach that make it work, finding that the contrastive loss outperforms a popular alternative based on cross-view prediction, and that the more views we learn from, the better the resulting representation captures underlying scene semantics. Our approach achieves state-of-the-art results on image and video unsupervised learning benchmarks.
translated by 谷歌翻译
This work investigates unsupervised learning of representations by maximizing mutual information between an input and the output of a deep neural network encoder. Importantly, we show that structure matters: incorporating knowledge about locality in the input into the objective can significantly improve a representation's suitability for downstream tasks. We further control characteristics of the representation by matching to a prior distribution adversarially. Our method, which we call Deep InfoMax (DIM), outperforms a number of popular unsupervised learning methods and compares favorably with fully-supervised learning on several classification tasks in with some standard architectures. DIM opens new avenues for unsupervised learning of representations and is an important step towards flexible formulations of representation learning objectives for specific end-goals.
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
The past two decades have seen increasingly rapid advances in the field of multi-view representation learning due to it extracting useful information from diverse domains to facilitate the development of multi-view applications. However, the community faces two challenges: i) how to learn robust representations from a large amount of unlabeled data to against noise or incomplete views setting, and ii) how to balance view consistency and complementary for various downstream tasks. To this end, we utilize a deep fusion network to fuse view-specific representations into the view-common representation, extracting high-level semantics for obtaining robust representation. In addition, we employ a clustering task to guide the fusion network to prevent it from leading to trivial solutions. For balancing consistency and complementary, then, we design an asymmetrical contrastive strategy that aligns the view-common representation and each view-specific representation. These modules are incorporated into a unified method known as CLustering-guided cOntrastiVE fusioN (CLOVEN). We quantitatively and qualitatively evaluate the proposed method on five datasets, demonstrating that CLOVEN outperforms 11 competitive multi-view learning methods in clustering and classification. In the incomplete view scenario, our proposed method resists noise interference better than those of our competitors. Furthermore, the visualization analysis shows that CLOVEN can preserve the intrinsic structure of view-specific representation while also improving the compactness of view-commom representation. Our source code will be available soon at https://github.com/guanzhou-ke/cloven.
translated by 谷歌翻译
对比表示学习旨在通过估计数据的多个视图之间的共享信息来获得有用的表示形式。在这里,数据增强的选择对学会表示的质量很敏感:随着更难的应用,数据增加了,视图共享更多与任务相关的信息,但也可以妨碍表示代表的概括能力。在此激励的基础上,我们提出了一种新的强大的对比度学习计划,即r \'enyicl,可以通过利用r \'enyi差异来有效地管理更艰难的增强。我们的方法建立在r \'enyi差异的变异下限基础上,但是由于差异很大,对变异方法的使用是不切实际的。要应对这一挑战,我们提出了一个新颖的对比目标,该目标是进行变异估计的新型对比目标偏斜r \'enyi的分歧,并提供理论保证,以确保偏差差异如何导致稳定训练。我们表明,r \'enyi对比度学习目标执行先天的硬性负面样本和易于选择的阳性抽样学习有用的功能并忽略滋扰功能。通过在Imagenet上进行实验,我们表明,r \'enyi对比度学习具有更强的增强性能优于其他自我监督的方法,而无需额外的正则化或计算上的开销。图形和表格,显示了与其他对比方法相比的经验增益。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
Multi-view representation learning has developed rapidly over the past decades and has been applied in many fields. However, most previous works assumed that each view is complete and aligned. This leads to an inevitable deterioration in their performance when encountering practical problems such as missing or unaligned views. To address the challenge of representation learning on partially aligned multi-view data, we propose a new cross-view graph contrastive learning framework, which integrates multi-view information to align data and learn latent representations. Compared with current approaches, the proposed method has the following merits: (1) our model is an end-to-end framework that simultaneously performs view-specific representation learning via view-specific autoencoders and cluster-level data aligning by combining multi-view information with the cross-view graph contrastive learning; (2) it is easy to apply our model to explore information from three or more modalities/sources as the cross-view graph contrastive learning is devised. Extensive experiments conducted on several real datasets demonstrate the effectiveness of the proposed method on the clustering and classification tasks.
translated by 谷歌翻译
Inspired by the impressive success of contrastive learning (CL), a variety of graph augmentation strategies have been employed to learn node representations in a self-supervised manner. Existing methods construct the contrastive samples by adding perturbations to the graph structure or node attributes. Although impressive results are achieved, it is rather blind to the wealth of prior information assumed: with the increase of the perturbation degree applied on the original graph, 1) the similarity between the original graph and the generated augmented graph gradually decreases; 2) the discrimination between all nodes within each augmented view gradually increases. In this paper, we argue that both such prior information can be incorporated (differently) into the contrastive learning paradigm following our general ranking framework. In particular, we first interpret CL as a special case of learning to rank (L2R), which inspires us to leverage the ranking order among positive augmented views. Meanwhile, we introduce a self-ranking paradigm to ensure that the discriminative information among different nodes can be maintained and also be less altered to the perturbations of different degrees. Experiment results on various benchmark datasets verify the effectiveness of our algorithm compared with the supervised and unsupervised models.
translated by 谷歌翻译
不完整的多视图聚类旨在通过使用来自多种模式的数据来增强聚类性能。尽管已经提出了几种研究此问题的方法,但以下缺点仍然存在:1)很难学习潜在的互补性但不使用标签信息而保持一致性的潜在表示; 2)因此,当完整的数据稀缺时,在不完整的数据中未能充分利用不完整数据中的隐藏信息会导致次优群集性能。在本文中,我们提出了与生成对抗网络(CIMIC-GAN)的对比度不完整的多视图图像聚类,该网络使用GAN填充不完整的数据并使用双对比度学习来学习完整和不完整的数据的一致性。更具体地说,考虑到多种方式之间的多样性和互补信息,我们将完整和不完整数据的自动编码表示为双对比度学习,以实现学习一致性。将gan集成到自动编码过程中不仅可以充分利用不完整数据的新功能,而且可以在存在高数据缺失率的情况下更好地概括该模型。在\ textColor {black} {四}广泛使用的数据集上进行的实验表明,cimic-gan优于最先进的不完整的多视图聚类方法。
translated by 谷歌翻译
使用超越欧几里德距离的神经网络,深入的Bregman分歧测量数据点的分歧,并且能够捕获分布的发散。在本文中,我们提出了深深的布利曼对视觉表现的对比学习的分歧,我们的目标是通过基于功能Bregman分歧培训额外的网络来提高自我监督学习中使用的对比损失。与完全基于单点之间的分歧的传统对比学学习方法相比,我们的框架可以捕获分布之间的发散,这提高了学习表示的质量。我们展示了传统的对比损失和我们提出的分歧损失优于基线的结合,并且最先前的自我监督和半监督学习的大多数方法在多个分类和对象检测任务和数据集中。此外,学习的陈述在转移到其他数据集和任务时概括了良好。源代码和我们的型号可用于补充,并将通过纸张释放。
translated by 谷歌翻译
学习概括不见于没有人类监督的有效视觉表现是一个基本问题,以便将机器学习施加到各种各样的任务。最近,分别是SIMCLR和BYOL的两个自我监督方法,对比学习和潜在自动启动的家庭取得了重大进展。在这项工作中,我们假设向这些算法添加显式信息压缩产生更好,更强大的表示。我们通过开发与条件熵瓶颈(CEB)目标兼容的SIMCLR和BYOL配方来验证这一点,允许我们衡量并控制学习的表示中的压缩量,并观察它们对下游任务的影响。此外,我们探讨了Lipschitz连续性和压缩之间的关系,显示了我们学习的编码器的嘴唇峰常数上的易触摸下限。由于Lipschitz连续性与稳健性密切相关,这为什么压缩模型更加强大提供了新的解释。我们的实验证实,向SIMCLR和BYOL添加压缩显着提高了线性评估精度和模型鲁棒性,跨各种域移位。特别是,Byol的压缩版本与Reset-50的ImageNet上的76.0%的线性评估精度达到了76.0%的直线评价精度,并使用Reset-50 2x的78.8%。
translated by 谷歌翻译
随着大数据在多个高影响应用程序中的出现,我们经常面临复杂异质性的挑战。新收集的数据通常由多种模态组成,并具有多个标签,因此表现出多种类型的异质性的共存。尽管最先进的技术擅长使用足够的标签信息对复杂的异质性进行建模,但是在实际应用中获得的标签信息可能非常昂贵。最近,研究人员通过利用丰富的未标记数据,非常关注对比度学习的出色表现。但是,对比度学习上的现有工作无法解决虚假负面对的问题,即,如果某些“负”对具有相同的标签,则可能具有相似的表示。为了克服这些问题,在本文中,我们提出了一个统一的异质学习框架,该框架结合了加权的无监督对比损失和加权监督的对比损失,以模拟多种类型的异质性。我们首先提供了理论分析,表明在存在假负对的情况下,香草对比度学习损失很容易导致次优的解决方案,而拟议的加权损失可以自动根据学习表示的相似性自动调整重量,从而减轻这种情况以减轻这种情况问题。现实世界数据集的实验结果证明了对多种类型的异质性建模所提出的框架的有效性和效率。
translated by 谷歌翻译
Contrastive learning between multiple views of the data has recently achieved state of the art performance in the field of self-supervised representation learning. Despite its success, the influence of different view choices has been less studied. In this paper, we use theoretical and empirical analysis to better understand the importance of view selection, and argue that we should reduce the mutual information (MI) between views while keeping task-relevant information intact. To verify this hypothesis, we devise unsupervised and semi-supervised frameworks that learn effective views by aiming to reduce their MI. We also consider data augmentation as a way to reduce MI, and show that increasing data augmentation indeed leads to decreasing MI and improves downstream classification accuracy. As a byproduct, we achieve a new state-of-the-art accuracy on unsupervised pre-training for ImageNet classification (73% top-1 linear readout with a ResNet-50) 1 .
translated by 谷歌翻译
最近先进的无监督学习方法使用暹罗样框架来比较来自同一图像的两个“视图”以进行学习表示。使两个视图独特是一种保证无监督方法可以学习有意义的信息的核心。但是,如果使用用于生成两个视图的增强不足够强度,此类框架有时会易碎过度装备,导致培训数据上的过度自信的问题。此缺点会阻碍模型,从学习微妙方差和细粒度信息。为了解决这个问题,在这项工作中,我们的目标是涉及在无监督的学习中的标签空间上的距离概念,并让模型通过混合输入数据空间来了解正面或负对对之间的柔和程度,以便协同工作输入和损耗空间。尽管其概念性简单,我们凭借解决的解决方案 - 无监督图像混合(UN-MIX),我们可以从转换的输入和相应的新标签空间中学习Subtler,更强大和广义表示。广泛的实验在CiFar-10,CiFar-100,STL-10,微小的想象和标准想象中进行了流行的无人监督方法SIMCLR,BYOL,MOCO V1和V2,SWAV等。我们所提出的图像混合物和标签分配策略可以获得一致的改进在完全相同的超参数和基础方法的培训程序之后1〜3%。代码在https://github.com/szq0214/un-mix上公开提供。
translated by 谷歌翻译
数据增强模块用于对比学习将给定的数据示例转换为两个视图,这被认为是必不可少的且不可替代的。但是,多个数据增强的预定组成带来了两个缺点。首先,增强类型的人工选择为模型带来了特定的代表性不变,它们对不同的下游任务具有不同程度的积极和负面影响。在培训期间,平等处理每种类型的增强性,使该模型学习了各种下游任务的非最佳表示,并限制了事先选择增强类型的灵活性。其次,在经典的对比度学习方法中使用的强大数据增强可能会在某些情况下带来太多的不变性,而对于某些下游任务至关重要的细粒度可能会丢失。本文提出了一种通用方法,以考虑在一般的对比学习框架中考虑在何处以及与什么对比来减轻这两个问题。我们首先建议根据每个数据增强的重要性,在模型的不同深度学习不同的增强不变,而不是在骨干中均匀学习代表性不变。然后,我们建议用增强嵌入扩展对比内容,以减少强大数据增强的误导效果。基于几种基线方法的实验表明,我们在分类,检测和分割下游任务上学习更好的各种基准。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
This paper presents SimCLR: a simple framework for contrastive learning of visual representations. We simplify recently proposed contrastive selfsupervised learning algorithms without requiring specialized architectures or a memory bank. In order to understand what enables the contrastive prediction tasks to learn useful representations, we systematically study the major components of our framework. We show that (1) composition of data augmentations plays a critical role in defining effective predictive tasks, (2) introducing a learnable nonlinear transformation between the representation and the contrastive loss substantially improves the quality of the learned representations, and (3) contrastive learning benefits from larger batch sizes and more training steps compared to supervised learning. By combining these findings, we are able to considerably outperform previous methods for self-supervised and semi-supervised learning on ImageNet. A linear classifier trained on self-supervised representations learned by Sim-CLR achieves 76.5% top-1 accuracy, which is a 7% relative improvement over previous state-ofthe-art, matching the performance of a supervised ResNet-50. When fine-tuned on only 1% of the labels, we achieve 85.8% top-5 accuracy, outperforming AlexNet with 100× fewer labels. 1
translated by 谷歌翻译