我们争辩说,当模型学习\ texit {good}表示时,我们应该有一个有价值的视角是,应该由人类类似地观察到模型的类似表示的输入。我们使用\ textit {表示反转}来生成映射到相同模型表示的多个输入,然后通过人类调查量化这些输入的感知相似性。我们的方法产生了模型与人类感知对齐的程度的衡量标准。使用这种对准度量,我们评估了用各种学习范例(例如〜监督和自我监督学习)和不同培训损失(标准和强大培训)培训的模型。我们的研究结果表明,具有人类感知的表现的对齐提供了对模型的品质的有用的额外见解。例如,我们发现与人类感知的对齐可以用作模型对不同模型对输出冲突的输入的模型预测的信任的量度。我们还发现模型的各种属性,如其架构,培训范式,培训损失和数据增强在与人类感知一致的学习陈述中起着重要作用。
translated by 谷歌翻译
研究深度学习的鲁棒性的一个主要挑战是定义了给定神经网络(NN)不变的``毫无意义''扰动集。关于鲁棒性的大多数工作隐含地将人作为参考模型来定义这种扰动。我们的工作通过使用另一个参考NN来定义给定的NN应该不变,从而使对任何NN的依赖概述对任何NN的依赖。这使得衡量鲁棒性等同于衡量两个NN共享不稳定的程度,我们提出了一种称为搅拌的措施。搅拌重新调整现有的表示相似性措施,使其适合衡量共享的不稳定。使用我们的度量,我们能够深入了解共享的不断增长,随着重量初始化,体系结构,损失功能和培训数据集的变化如何变化。我们的实现可在:\ url {https://github.com/nvedant07/stir}中获得。
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译
自我监督学习的最新进展证明了多种视觉任务的有希望的结果。高性能自我监督方法中的一个重要成分是通过培训模型使用数据增强,以便在嵌入空间附近的相同图像的不同增强视图。然而,常用的增强管道整体地对待图像,忽略图像的部分的语义相关性-e.g。主题与背景 - 这可能导致学习杂散相关性。我们的工作通过调查一类简单但高度有效的“背景增强”来解决这个问题,这鼓励模型专注于语义相关内容,劝阻它们专注于图像背景。通过系统的调查,我们表明背景增强导致在各种任务中跨越一系列最先进的自我监督方法(MOCO-V2,BYOL,SWAV)的性能大量改进。 $ \ SIM $ + 1-2%的ImageNet收益,使得与监督基准的表现有关。此外,我们发现有限标签设置的改进甚至更大(高达4.2%)。背景技术增强还改善了许多分布换档的鲁棒性,包括天然对抗性实例,想象群-9,对抗性攻击,想象成型。我们还在产生了用于背景增强的显着掩模的过程中完全无监督的显着性检测进展。
translated by 谷歌翻译
这项工作评估了生成模型的质量度量的鲁棒性,例如INPECTION评分(IS)和FR \'Echet Inception距离(FID)。类似于深层模型对各种对抗性攻击的脆弱性,我们表明这种指标也可以通过添加剂像素扰动来操纵。我们的实验表明,可以生成分数很高但知觉质量低的图像分布。相反,人们可以优化对小型扰动,当将其添加到现实世界图像中时,会使他们的分数恶化。我们进一步将评估扩展到生成模型本身,包括最先进的网络样式。我们展示了生成模型和FID的脆弱性,反对潜在空间中的累加扰动。最后,我们证明,通过简单地以强大的启动来代替标准发明,可以强大地实现FID。我们通过广泛的实验来验证鲁棒度量的有效性,这表明它对操纵更为强大。
translated by 谷歌翻译
发现神经网络学到的内容仍然是一个挑战。在自我监督的学习中,分类是用于评估表示是多么常见的最常见任务。但是,只依赖于这样的下游任务可以限制我们对给定输入的表示中保留的信息量的理解。在这项工作中,我们展示了使用条件扩散的生成模型(RCDM)来可视化具有自我监督模型学习的表示。我们进一步展示了这种模型的发电质量如何与最先进的生成模型相符,同时忠于用作调节的代表性。通过使用这个新工具来分析自我监督模型,我们可以在视觉上显示i)SSL(骨干)表示并不是真正不变的,以便他们训练的许多数据增强。 ii)SSL投影仪嵌入出现太不变的任务,如分类。 III)SSL表示对其输入IV的小对抗扰动更稳健),具有可用于图像操作的SSL模型的固有结构。
translated by 谷歌翻译
为了在看不见的看不见和潜在的超出分布样品上,希望机器学习模型具有关于影响输入变化因子的变换的可预测响应。在这里,我们研究了几种类型的归纳偏见对这种可预测行为的相对重要性:数据的选择,他们的增强和模型架构。通过手工工程数据增强通常实现不变性,但是进行标准数据增强地址转换,用于解释实际数据的变化?虽然事先工作专注于合成数据,但我们在此尝试表征真实数据集,想象成的变化因素,并研究标准残余网络的不变性以及最近提出的视觉变压器关于这些因素的变化。我们展示了标准的增强依赖于平移和规模的精确组合,在翻译回顾大部分性能改进 - 尽管在卷积架构(如剩余网络)中建立的(近似)翻译不变性。事实上,我们发现规模和翻译不变性在剩余网络和视觉变压器模型中类似于它们显着不同的架构感应偏差。我们显示培训数据本身是不变性的主要来源,数据增强只会进一步增加所学到的InorRARCE。值得注意的是,在训练期间学习的修正因与我们发现的想象成分对齐。最后,我们发现想象成的变化的主要因素主要与外观有关,并且特定于每个班级。
translated by 谷歌翻译
作为研究界,我们仍然缺乏对对抗性稳健性的进展的系统理解,这通常使得难以识别训练强大模型中最有前途的想法。基准稳健性的关键挑战是,其评估往往是出错的导致鲁棒性高估。我们的目标是建立对抗性稳健性的标准化基准,尽可能准确地反映出考虑在合理的计算预算范围内所考虑的模型的稳健性。为此,我们首先考虑图像分类任务并在允许的型号上引入限制(可能在将来宽松)。我们评估了与AutoAtrack的对抗鲁棒性,白和黑箱攻击的集合,最近在大规模研究中显示,与原始出版物相比,改善了几乎所有稳健性评估。为防止对自动攻击进行新防御的过度适应,我们欢迎基于自适应攻击的外部评估,特别是在自动攻击稳健性潜在高估的地方。我们的排行榜,托管在https://robustbench.github.io/,包含120多个模型的评估,并旨在反映在$ \ ell_ \ infty $的一套明确的任务上的图像分类中的当前状态 - 和$ \ ell_2 $ -Threat模型和共同腐败,未来可能的扩展。此外,我们开源源是图书馆https://github.com/robustbench/robustbench,可以提供对80多个强大模型的统一访问,以方便他们的下游应用程序。最后,根据收集的模型,我们分析了稳健性对分布换档,校准,分配检测,公平性,隐私泄漏,平滑度和可转移性的影响。
translated by 谷歌翻译
对共同腐败的稳健性的文献表明对逆势培训是否可以提高这种环境的性能,没有达成共识。 First, we show that, when used with an appropriately selected perturbation radius, $\ell_p$ adversarial training can serve as a strong baseline against common corruptions improving both accuracy and calibration.然后,我们解释了为什么对抗性训练比具有简单高斯噪声的数据增强更好地表现,这被观察到是对共同腐败的有意义的基线。与此相关,我们确定了高斯增强过度适用于用于培训的特定标准偏差的$ \ sigma $ -oviting现象,这对培训具有显着不利影响的普通腐败精度。我们讨论如何缓解这一问题,然后如何通过学习的感知图像贴片相似度引入对抗性训练的有效放松来进一步增强$ \ ell_p $普发的培训。通过对CiFar-10和Imagenet-100的实验,我们表明我们的方法不仅改善了$ \ ell_p $普发的培训基线,而且还有累积的收益与Augmix,Deepaulment,Ant和Sin等数据增强方法,导致普通腐败的最先进的表现。我们的实验代码在HTTPS://github.com/tml-epfl/adv-training - 窗子上公开使用。
translated by 谷歌翻译
(非)神经网络到小,对抗像素明智的扰动的鲁棒性,并且最近示出了甚至是随机空间转换(例如,翻译,旋转)恳求理论和经验理解。通过等级模型(例如,STDCNNS,GCNN)和训练增强,通常实现了随机翻译和旋转的空间鲁棒性,而普遍鲁棒性通常通过对抗性训练来实现。在本文中,我们在简单的统计环境中证明了空间和对抗性鲁棒性之间的定量折衷。我们通过展示:(a)随着等效模型的空间稳健性通过逐步培训更大的转化来改善,它们的对抗鲁棒性逐渐恶化,并且(b)随着最先进的强大模型是对抗的具有较大的像素明智的扰动训练,它们的空间鲁棒性逐渐下降。在此权衡中实现帕累托 - 最优性,我们提出了一种基于课程学习的方法,该方法逐步列举更加困难的扰动(空间和对抗性),以同时改善空间和对抗鲁棒性。
translated by 谷歌翻译
不变性于广泛的图像损坏,例如翘曲,噪声或颜色移位,是在计算机视觉中建立强大模型的一个重要方面。最近,已经提出了几种新的数据增强,从而显着提高了Imagenet-C的性能,这是这种腐败的基准。但是,对数据增强和测试时间损坏之间的关系仍然缺乏基本的理解。为此,我们开发了图像变换的一个特征空间,然后在增强和损坏之间使用该空间中的新措施,称为最小示例距离,以演示相似性和性能之间的强相关性。然后,当测试时间损坏被对来自Imagenet-C中的测试时间损坏被采样时,我们调查最近的数据增强并观察腐败鲁棒性的重大退化。我们的结果表明,通过对感知同类增强的培训来提高测试错误,数据增强可能不会超出现有的基准。我们希望我们的结果和工具将允许更强大的进展,以提高对图像损坏的稳健性。我们在https://github.com/facebookresearch/augmentation - 窗子提供代码。
translated by 谷歌翻译
近年来出现的一种意外技术包括使用自我监督学习(SSL)方法培训深网(DN),并在下游任务上使用此网络,但其最后几层已完全删除。这种通常的脱脂技巧实际上对于SSL方法显示竞争性表演至关重要。例如,在成像网分类上,可以以这种方式获得超过30个百分比。这有点令人烦恼,因为人们希望在训练期间SSL标准明确执行不变性的网络层(最后一层)应该是用于下游最佳概括性能的一种。但这似乎并非如此,这项研究阐明了原因。我们将这种技巧称为断头台正则化(GR),实际上是一种普遍适用的正则化形式,也已用于改善转移学习方案中的泛化性能。在这项工作中,通过理论和实验,我们将GR形式化并确定其在SSL方法中成功背后的根本原因。我们的研究表明,这种技巧对于SSL的性能至关重要,原因有两个:(i)确定训练过程中使用的正面对的数据启发不当,和/或(ii)次优选择了该训练的超参数。 SSL损失。
translated by 谷歌翻译
对比自我监督学习(CSL)已设法匹配或超过图像和视频分类中监督学习的表现。但是,仍然未知两个学习范式引起的表示的性质是否相似。我们在对抗性鲁棒性的角度下对此进行了研究。我们对该问题的分析治疗揭示了CSL对监督学习的内在更高灵敏度。它将数据表示形式在CSL表示空间中的单位过球上的统一分布是这种现象的关键因素。我们确定这会增加模型对输入扰动的敏感性,而在培训数据中存在假阴性的情况下。我们的发现得到了对对抗性扰动和其他输入损坏的图像和视频分类的广泛实验的支持。在洞察力的基础上,我们制定了简单但有效地通过CSL培训改善模型鲁棒性的策略。我们证明,对抗攻击的CSL及其受监督的对手之间的性能差距最高可下降68%。最后,我们通过将我们的发现纳入对抗性的自我监督学习中,为强大的CSL范式做出了贡献。我们证明,在该域中的两种不同的最新方法中,平均增益约为5%。
translated by 谷歌翻译
When developing deep learning models, we usually decide what task we want to solve then search for a model that generalizes well on the task. An intriguing question would be: what if, instead of fixing the task and searching in the model space, we fix the model and search in the task space? Can we find tasks that the model generalizes on? How do they look, or do they indicate anything? These are the questions we address in this paper. We propose a task discovery framework that automatically finds examples of such tasks via optimizing a generalization-based quantity called agreement score. We demonstrate that one set of images can give rise to many tasks on which neural networks generalize well. These tasks are a reflection of the inductive biases of the learning framework and the statistical patterns present in the data, thus they can make a useful tool for analysing the neural networks and their biases. As an example, we show that the discovered tasks can be used to automatically create adversarial train-test splits which make a model fail at test time, without changing the pixels or labels, but by only selecting how the datapoints should be split between the train and test sets. We end with a discussion on human-interpretability of the discovered tasks.
translated by 谷歌翻译
自我监督的学习是一个强大的范例,用于在未标记的图像上学习。基于实例匹配的大量有效的新方法依赖于数据增强来推动学习,这些方法达成了优化流行识别基准的增强方案的粗略协议。但是,有强有力的理由可疑计算机视觉中的不同任务需要对不同(IN)差异进行编码的功能,因此可能需要不同的增强策略。在本文中,我们衡量了对比方法学到的修正学知识,并确认他们确实学会了与使用的增强的不变性,进一步表明,这一不变性大大转移到与姿势和照明的相关真实变化的变化很大程度上转移。我们展示了学习的InorRARCES强烈影响下游任务性能,并确认不同的下游任务从极性相反(IN)差异中受益,导致使用标准增强策略时的性能损失。最后,我们证明,具有互补的修正条件的表现简单融合可确保对所考虑的所有不同下游任务进行广泛的可转换性。
translated by 谷歌翻译
As the societal impact of Deep Neural Networks (DNNs) grows, the goals for advancing DNNs become more complex and diverse, ranging from improving a conventional model accuracy metric to infusing advanced human virtues such as fairness, accountability, transparency (FaccT), and unbiasedness. Recently, techniques in Explainable Artificial Intelligence (XAI) are attracting considerable attention, and have tremendously helped Machine Learning (ML) engineers in understanding AI models. However, at the same time, we started to witness the emerging need beyond XAI among AI communities; based on the insights learned from XAI, how can we better empower ML engineers in steering their DNNs so that the model's reasonableness and performance can be improved as intended? This article provides a timely and extensive literature overview of the field Explanation-Guided Learning (EGL), a domain of techniques that steer the DNNs' reasoning process by adding regularization, supervision, or intervention on model explanations. In doing so, we first provide a formal definition of EGL and its general learning paradigm. Secondly, an overview of the key factors for EGL evaluation, as well as summarization and categorization of existing evaluation procedures and metrics for EGL are provided. Finally, the current and potential future application areas and directions of EGL are discussed, and an extensive experimental study is presented aiming at providing comprehensive comparative studies among existing EGL models in various popular application domains, such as Computer Vision (CV) and Natural Language Processing (NLP) domains.
translated by 谷歌翻译
对抗性训练(AT)通常被认为是防御对抗性例子的最有效的方法之一,可能会在很大程度上损害标准绩效,因此对工业规模的生产和应用的有用性有限。令人惊讶的是,这种现象在自然语言处理(NLP)任务中完全相反,在该任务中甚至可以从中受益。我们注意到NLP任务中AT的优点可能来自离散和符号输入空间。为了借用NLP风格的优势,我们提出了离散的对抗训练(DAT)。 DAT利用VQGAN改革图像数据以离散类似文本的输入,即视觉单词。然后,它可以最大程度地减少这种离散图像的最大风险,并具有符号对抗扰动。我们从分布的角度进一步提供了解释,以证明DAT的有效性。作为增强视觉表示的插件技术,DAT可以在多个任务上取得重大改进,包括图像分类,对象检测和自我监督学习。尤其是,该模型通过胶带自动编码(MAE)预先训练并由我们的DAT进行微调,而没有额外的数据可以在Imagenet-C上获得31.40 MCE,并且在Stylized-Imagenet上进行了32.77%的TOP-1准确性,建立了新的状态 - 艺术。该代码将在https://github.com/alibaba/easyrobust上找到。
translated by 谷歌翻译
图像空间中的视觉反事实解释(VCE)是了解图像分类器的决策的重要工具,因为它们显示了图像的更改,分类器的决策将会改变。他们在图像空间中的产生具有挑战性,由于对抗性例子的问题,需要强大的模型。在图像空间中生成VCE的现有技术遭受背景虚假变化的影响。我们对VCE的新型扰动模型以及通过我们的新型自动 - 弗兰克 - 摩 - 摩托方案的有效优化产生了稀疏的VCE,从而导致了针对目标类别的细微变化。此外,我们表明,由于Imagenet数据集中的虚假特征,VCE可用于检测Imagenet分类器的不希望的行为。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
We build new test sets for the CIFAR-10 and ImageNet datasets. Both benchmarks have been the focus of intense research for almost a decade, raising the danger of overfitting to excessively re-used test sets. By closely following the original dataset creation processes, we test to what extent current classification models generalize to new data. We evaluate a broad range of models and find accuracy drops of 3% -15% on CIFAR-10 and 11% -14% on ImageNet. However, accuracy gains on the original test sets translate to larger gains on the new test sets. Our results suggest that the accuracy drops are not caused by adaptivity, but by the models' inability to generalize to slightly "harder" images than those found in the original test sets.
translated by 谷歌翻译