噪声对比度估计的最新研究表明,从经验上讲,从理论上讲,尽管在对比度损失中拥有更多的“负样本”,但最初在阈值中提高了下游分类的性能,但由于“碰撞覆盖“贸易”,它都会损害下游性能-离开。但是,对比度学习中固有的现象是如此吗?我们在一个简单的理论环境中显示,通过从基础潜在类采样(由Saunshi等人引入(ICML 2019)),产生正对,表明表示(人口)对比度损失的下游性能实际上确实确实确实如此。不会随着负样本的数量降低。一路上,我们在框架中给出了最佳表示形式的结构表征,以进行噪声对比估计。我们还为CIFAR-10和CIFAR-100数据集的理论结果提供了经验支持。
translated by 谷歌翻译
Recent empirical works have successfully used unlabeled data to learn feature representations that are broadly useful in downstream classification tasks. Several of these methods are reminiscent of the well-known word2vec embedding algorithm: leveraging availability of pairs of semantically "similar" data points and "negative samples," the learner forces the inner product of representations of similar pairs with each other to be higher on average than with negative samples. The current paper uses the term contrastive learning for such algorithms and presents a theoretical framework for analyzing them by introducing latent classes and hypothesizing that semantically similar points are sampled from the same latent class. This framework allows us to show provable guarantees on the performance of the learned representations on the average classification task that is comprised of a subset of the same set of latent classes. Our generalization bound also shows that learned representations can reduce (labeled) sample complexity on downstream tasks. We conduct controlled experiments in both the text and image domains to support the theory.
translated by 谷歌翻译
由于其无监督的性质和下游任务的信息性特征表示,实例歧视自我监督的代表学习受到了受到关注的。在实践中,它通常使用比监督类的数量更多的负样本。然而,现有分析存在不一致;从理论上讲,大量的负样本在下游监督任务上降低了分类性能,同时凭经验,它们提高了性能。我们提供了一种新颖的框架,用于使用优惠券收集器的问题分析关于负样本的经验结果。我们的界限可以通过增加负样本的数量来隐立地纳入自我监督损失中的下游任务的监督损失。我们确认我们的拟议分析持有现实世界基准数据集。
translated by 谷歌翻译
自我监督学习中的最新作品通过依靠对比度学习范式来推动最先进的工作,该范式通过推动正面对或从同一班级中的类似示例来学习表示形式,同时将负面对截然不同。尽管取得了经验的成功,但理论基础是有限的 - 先前的分析假设鉴于同一类标签的正对有条件独立性,但是最近的经验应用使用了密切相关的正对(即同一图像的数据增强)。我们的工作分析了对比度学习,而无需在数据上使用增强图的新概念假设正对的有条件独立性。此图中的边缘连接相同数据的增强,而地面实际类别自然形成了连接的子图。我们提出了在人口增强图上执行光谱分解的损失,并且可以简洁地作为对神经净表示的对比学习目标。最小化此目标会导致在线性探针评估下具有可证明准确性的功能。通过标准的概括范围,在最大程度地减少训练对比度损失时,这些准确性也可以保证。从经验上讲,我们目标所学的功能可以匹配或胜过基准视觉数据集上的几个强基线。总的来说,这项工作为对比度学习提供了首次可证明的分析,在该学习中,线性探针评估的保证可以适用于现实的经验环境。
translated by 谷歌翻译
理想学识渊博的表示应显示可转移性和鲁棒性。监督对比学习(SUPCON)是一种训练准确模型的有前途的方法,但是当班级映射中的所有点符合相同的表示形式时,就会产生不会捕获这些属性的表示形式。最近的工作表明,“散布”这些表示可以改善它们,但是确切的机制知之甚少。我们认为,单独创建点差不足以进行更好的表示,因为差异对于班级的排列不变。取而代之的是,有必要正确的传播程度和破坏这种不变性的机制。我们首先证明,添加加权类条件的信息损失以控制传播程度。接下来,我们研究了三种破坏排列不变性的机制:使用约束编码器,添加类条件自动编码器并使用数据增强。我们表明,后两者鼓励在更现实的条件下与前者聚集潜在子类。使用这些见解,我们表明,在5个标准数据集中添加适当加权的集体条件infonce损失和一个班级条件自动编码器,以在5个标准数据集中进行粗到5分的转移,并在最差的组上进行4.7分,以达到11.1个升力。 3个数据集,将Celeba的最新时间设置为11.5分。
translated by 谷歌翻译
Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
translated by 谷歌翻译
对比学习在各种自我监督的学习任务中取得了最先进的表现,甚至优于其监督的对应物。尽管其经验成功,但对为什么对比学习作品的理论认识仍然有限。在本文中,(i)我们证明,对比学习胜过AutoEncoder,一种经典无监督的学习方法,适用于特征恢复和下游任务;(ii)我们还说明标记数据在监督对比度学习中的作用。这为最近的发现提供了理论支持,即对标签对比学习的结果提高了域名下游任务中学识表的表现,但它可能会损害转移学习的性能。我们通过数值实验验证了我们的理论。
translated by 谷歌翻译
尽管自我监督学习(SSL)方法取得了经验成功,但尚不清楚其表示的哪些特征导致了高下游精度。在这项工作中,我们表征了SSL表示应该满足的属性。具体而言,我们证明了必要和充分的条件,因此,对于给出的数据增强的任何任务,在该表示形式上训练的所需探针(例如,线性或MLP)具有完美的准确性。这些要求导致一个统一的概念框架,用于改善现有的SSL方法并得出新方法。对于对比度学习,我们的框架规定了对以前的方法(例如使用不对称投影头)的简单但重大改进。对于非对比度学习,我们使用框架来得出一个简单新颖的目标。我们所得的SSL算法在标准基准测试上的表现优于基线,包括Imagenet线性探测的SHAV+多螺旋桨。
translated by 谷歌翻译
A prominent technique for self-supervised representation learning has been to contrast semantically similar and dissimilar pairs of samples. Without access to labels, dissimilar (negative) points are typically taken to be randomly sampled datapoints, implicitly accepting that these points may, in reality, actually have the same label. Perhaps unsurprisingly, we observe that sampling negative examples from truly different labels improves performance, in a synthetic setting where labels are available. Motivated by this observation, we develop a debiased contrastive objective that corrects for the sampling of same-label datapoints, even without knowledge of the true labels. Empirically, the proposed objective consistently outperforms the state-of-the-art for representation learning in vision, language, and reinforcement learning benchmarks. Theoretically, we establish generalization bounds for the downstream classification task.
translated by 谷歌翻译
我们研究了离线加强学习(RL)的代表性学习,重点是离线政策评估(OPE)的重要任务。最近的工作表明,与监督的学习相反,Q功能的可实现性不足以学习。样品效率OPE的两个足够条件是Bellman的完整性和覆盖范围。先前的工作通常假设给出满足这些条件的表示形式,结果大多是理论上的。在这项工作中,我们提出了BCRL,该BCRL直接从数据中吸取了近似线性的贝尔曼完整表示,并具有良好的覆盖范围。通过这种学识渊博的表示,我们使用最小平方策略评估(LSPE)执行OPE,并在我们学习的表示中具有线性函数。我们提出了端到端的理论分析,表明我们的两阶段算法享有多项式样本复杂性,该算法在所考虑的丰富类别中提供了一些表示形式,这是线性的贝尔曼完成。从经验上讲,我们广泛评估了我们的DeepMind Control Suite的具有挑战性的基于图像的连续控制任务。我们显示我们的表示能够与针对非政策RL开发的先前表示的学习方法(例如Curl,SPR)相比,可以更好地使用OPE。 BCRL使用最先进的方法拟合Q评估(FQE)实现竞争性OPE误差,并在评估超出初始状态分布的评估时击败FQE。我们的消融表明,我们方法的线性铃铛完整和覆盖范围都至关重要。
translated by 谷歌翻译
Contrastive representation learning has been outstandingly successful in practice. In this work, we identify two key properties related to the contrastive loss: (1) alignment (closeness) of features from positive pairs, and (2) uniformity of the induced distribution of the (normalized) features on the hypersphere. We prove that, asymptotically, the contrastive loss optimizes these properties, and analyze their positive effects on downstream tasks. Empirically, we introduce an optimizable metric to quantify each property. Extensive experiments on standard vision and language datasets confirm the strong agreement between both metrics and downstream task performance. Directly optimizing for these two metrics leads to representations with comparable or better performance at downstream tasks than contrastive learning. Project
translated by 谷歌翻译
Many datasets are biased, namely they contain easy-to-learn features that are highly correlated with the target class only in the dataset but not in the true underlying distribution of the data. For this reason, learning unbiased models from biased data has become a very relevant research topic in the last years. In this work, we tackle the problem of learning representations that are robust to biases. We first present a margin-based theoretical framework that allows us to clarify why recent contrastive losses (InfoNCE, SupCon, etc.) can fail when dealing with biased data. Based on that, we derive a novel formulation of the supervised contrastive loss (epsilon-SupInfoNCE), providing more accurate control of the minimal distance between positive and negative samples. Furthermore, thanks to our theoretical framework, we also propose FairKL, a new debiasing regularization loss, that works well even with extremely biased data. We validate the proposed losses on standard vision datasets including CIFAR10, CIFAR100, and ImageNet, and we assess the debiasing capability of FairKL with epsilon-SupInfoNCE, reaching state-of-the-art performance on a number of biased datasets, including real instances of biases in the wild.
translated by 谷歌翻译
在负面的感知问题中,我们给出了$ n $数据点$({\ boldsymbol x} _i,y_i)$,其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1,-1 \} $是二进制标签。数据不是线性可分离的,因此我们满足自己的内容,以找到最大的线性分类器,具有最大的\ emph {否定}余量。换句话说,我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $,最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta},{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题(它相当于在Polytope中找到最大标准矢量),我们在两个随机模型下研究其典型属性。我们考虑比例渐近,其中$ n,d \ to \ idty $以$ n / d \ to \ delta $,并在最大边缘$ \ kappa _ {\ text {s}}(\ delta)上证明了上限和下限)$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}(\ kappa)$。换句话说,$ \ delta _ {\ text {s}}(\ kappa)$是overparametization阈值:以$ n / d \ le \ delta _ {\ text {s}}(\ kappa) - \ varepsilon $一个分类器实现了消失的训练错误,具有高概率,而以$ n / d \ ge \ delta _ {\ text {s}}(\ kappa)+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}(\ kappa)$匹配,以$ \ kappa \ to - \ idty $匹配。然后,我们分析了线性编程算法来查找解决方案,并表征相应的阈值$ \ delta _ {\ text {lin}}(\ kappa)$。我们观察插值阈值$ \ delta _ {\ text {s}}(\ kappa)$和线性编程阈值$ \ delta _ {\ text {lin {lin}}(\ kappa)$之间的差距,提出了行为的问题其他算法。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
使用信息理论原理,我们考虑迭代半监督学习(SSL)算法的概括误差(Gen-Error),这些算法迭代地生成了大量未标记数据的伪标记,以逐步完善模型参数。与{\ em绑定} Gen-Error的大多数以前的作品相反,我们为Gen-Error提供了{\ em Exact}的表达,并将其专门为二进制高斯混合模型。我们的理论结果表明,当阶级条件差异不大时,Gen-Error随着迭代次数的数量而减少,但很快就会饱和。另一方面,如果类的条件差异(因此,类别之间的重叠量)很大,则Gen-Error随迭代次数的增加而增加。为了减轻这种不良效果,我们表明正则化可以减少Gen-Error。通过对MNIST和CIFAR数据集进行的广泛实验来证实理论结果,我们注意到,对于易于分类的类别,经过几次伪标记的迭代,Gen-Error会改善,但此后饱和,并且更难难以实现。区分类别,正则化改善了概括性能。
translated by 谷歌翻译
成功的深度学习模型往往涉及培训具有比训练样本数量更多的参数的神经网络架构。近年来已经广泛研究了这种超分子化的模型,并且通过双下降现象和通过优化景观的结构特性,从统计的角度和计算视角都建立了过分统计化的优点。尽管在过上分层的制度中深入学习架构的显着成功,但也众所周知,这些模型对其投入中的小对抗扰动感到高度脆弱。即使在普遍培训的情况下,它们在扰动输入(鲁棒泛化)上的性能也会比良性输入(标准概括)的最佳可达到的性能更糟糕。因此,必须了解如何从根本上影响稳健性的情况下如何影响鲁棒性。在本文中,我们将通过专注于随机特征回归模型(具有随机第一层权重的两层神经网络)来提供超分度化对鲁棒性的作用的精确表征。我们考虑一个制度,其中样本量,输入维度和参数的数量彼此成比例地生长,并且当模型发生前列地训练时,可以为鲁棒泛化误差导出渐近精确的公式。我们的发达理论揭示了过分统计化对鲁棒性的非竞争效果,表明对于普遍训练的随机特征模型,高度公正化可能会损害鲁棒泛化。
translated by 谷歌翻译
当训练过度参数化的深网以进行分类任务时,已经广泛观察到,学到的功能表现出所谓的“神经崩溃”现象。更具体地说,对于倒数第二层的输出特征,对于每个类,课堂内特征会收敛到其平均值,而不同类别的手段表现出一定的紧密框架结构,这也与最后一层的分类器对齐。由于最后一层的特征归一化成为现代表示学习中的一种常见实践,因此,在这项工作中,我们从理论上证明了归一化特征的神经崩溃现象是合理的。基于不受约束的特征模型,我们通过限制球体上的所有特征和分类器来简化多级分类任务中的经验损失函数。在这种情况下,我们分析了riemannian优化问题在球体的产物上的非概念景观,从而显示出良性的全球景观,因为唯一的全球最小化器是神经崩溃的解决方案,而所有其他关键点是严格的鞍座。实用深网的实验结果证实了我们的理论,并证明可以通过特征归一化更快地学习更好的表示。
translated by 谷歌翻译
通过最小化同一图像的两个视图之间的距离来最大程度地减少自我监督学习的非对比度方法(例如BYOL和SIMSIAM)。这些方法在实践中取得了非凡的表现,但是理论理解落在了背后。天等。 2021解释了为什么表示形式不会崩溃到零,但是如何学习该功能仍然是神秘的。在我们的工作中,我们在线性网络中证明了非对抗性方法,学习了理想的投影矩阵,并降低了下游任务的样本复杂性。我们的分析表明,重量衰减是一个隐式阈值,它在数据增强下丢弃具有较高差异的特征,并保持差异较低的功能。受我们的理论的启发,我们通过在Tian等人的原始直接销售算法中删除特征分解步骤,从而设计了更简单,更有效的算法直接副本。 2021.我们的实验表明,直接竞争对手甚至超过了STL-10,CIFAR-10,CIFAR-100和IMAGENET的表现。
translated by 谷歌翻译
我们研究了基础模型的能力,以了解可转让给新的看不见的课程的分类的表现。文献中最近的结果表明,单个分类器在许多课程中学到的表示在少量学习问题上具有竞争力,这些问题是由专为这些问题设计的特殊用途算法学习的表示。在本文中,我们基于最近观察到的现象提供了对这种行为的解释,即通过共同计量的分类网络学习的特征显示有趣的聚类属性,称为神经崩溃。理论上,我们在理论上展示了神经崩溃的展示给来自培训类的新样本,更重要的是 - 对于新课程,允许基础模型提供在转移学习中良好工作的特征地图,具体地,少量拍摄设置。
translated by 谷歌翻译
最近,自我监督的学习引起了极大的关注,因为它只需要未标记的培训数据。对比学习是一种流行的自我监督学习方法,并在实践中经验上表现良好。然而,研究了对下游任务的泛化能力的理论理解并未得到很好的研究。为此,我们展示了对对比自我监督的预训练模型概括到下游任务的理论解释。具体地,我们定量表明,如果它将输入数据嵌入到具有区别的特征空间和群集课外样本的特征空间中,则自我监控模型具有下游分类任务的泛化能力。通过上述结论,我们进一步探索了SIMCLR和Barlow双胞胎,这是两个规范对比自我监督的方法。我们证明了上述特征空间可以通过任何方法获得,从而解释它们对下游分类任务的概括的成功。最后,还进行了各种实验以验证我们的理论发现。
translated by 谷歌翻译