人们普遍认为,在传输学习中,包括更多的预训练数据可以转化为更好的性能。但是,最近的证据表明,从源数据集中删除数据实际上也可以提供帮助。在这项工作中,我们仔细研究了源数据集在转移学习中的作用,并提出了探索其对下游性能的影响的框架。我们的框架产生了新的功能,例如精确转移学习脆弱性以及检测诸如数据渗漏等病理和源数据集中存在误导示例之类的病理。特别是,我们证明,消除通过框架确定的有害数据点可改善来自ImageNet的转移学习绩效,以了解各种目标任务。代码可从https://github.com/madrylab/data-transfer获得
translated by 谷歌翻译
使用转移学习将预先训练的“源模型”调整为下游“目标任务”可以大大提高性能,而似乎没有缺点。在这项工作中,我们证明毕竟可能存在一个缺点:偏差转移或源模型偏见的趋势,即使将模型调整为目标类别后,也可以持续存在。通过合成和自然实验的组合,我们表明偏差转移(a)是在现实设置中(例如,在图像网或其他标准数据集上进行预训练时)以及(b)即使明确数据也可能发生(b) - 偏见。随着转移学习的模型越来越多地在现实世界中部署,我们的工作突出了理解预训练源模型的局限性的重要性。代码可从https://github.com/madrylab/bias-transfer获得
translated by 谷歌翻译
现有的方法用于隔离数据集中的硬群和虚假相关性通常需要人为干预。这可以使这些方法具有劳动密集型和特定于数据集的特定方式。为了解决这些缺点,我们提出了一种自动提炼模型故障模式的可扩展方法。具体而言,我们利用线性分类器来识别一致的误差模式,然后又诱导这些故障模式作为特征空间内的方向的自然表示。我们证明,该框架使我们能够发现并自动为培训数据集中的子群体提起挑战,并进行干预以改善模型对这些亚群的绩效。可在https://github.com/madrylab/failure-directions上找到代码
translated by 谷歌翻译
灵长类动物的视觉系统是强大感知的黄金标准。因此,人们普遍认为,模仿这些系统基础的神经表现形式将产生具有对手稳健的人工视觉系统。在这项工作中,我们开发了一种直接对灵长类动物大脑活动进行对抗性视觉攻击的方法。然后,我们利用这种方法来证明上述信念可能不是很好的基础。具体而言,我们报告说,组成灵长类动物视觉系统的生物神经元表现出对对抗性扰动的敏感性,这些扰动与现有(训练有素的)人工神经网络相当。
translated by 谷歌翻译
缺失或缺乏输入功能,是许多模型调试工具的基础概念。但是,在计算机视觉中,不能简单地从图像中删除像素。因此,一种倾向于诉诸启发式方法,例如涂黑像素,这反过来又可能引入调试过程中的偏见。我们研究了这样的偏见,特别是展示了基于变压器的架构如何使遗失性更自然地实施,哪些侧架来侧翼这些问题并提高了实践中模型调试的可靠性。我们的代码可从https://github.com/madrylab/missingness获得
translated by 谷歌翻译
我们识别普遍对抗扰动(UAP)的性质,将它们与标准的对抗性扰动区分开来。具体而言,我们表明,由投影梯度下降产生的靶向UAPS表现出两种人对齐的特性:语义局部性和空间不变性,标准的靶向对抗扰动缺乏。我们还证明,除标准对抗扰动之外,UAPS含有明显较低的泛化信号 - 即,UAPS在比标准的对抗的扰动的较小程度上利用非鲁棒特征。
translated by 谷歌翻译
我们通过直接重写其预测规则,介绍一种修改分类器的行为的方法。我们的方法几乎不需要额外的数据收集,可以应用于各种设置,包括将模型调整为新环境,并修改它以忽略杂散功能。我们的代码可在https://github.com/madrylab/editingclassifers获得。
translated by 谷歌翻译
为了改善模型概括,模型设计师通常会隐式或显式地限制其模型使用的功能。在这项工作中,我们通过将其视为数据的不同观点来探讨利用此类特征先验的设计空间。具体而言,我们发现经过多种功能先验训练的模型具有较少的重叠故障模式,因此可以更有效地组合。此外,我们证明,在其他(未标记的)数据上共同训练此类模型使他们能够纠正彼此的错误,这反过来又导致对虚假相关性的更好的概括和韧性。可在https://github.com/madrylab/copriors上找到代码
translated by 谷歌翻译
Adaptive attacks have (rightfully) become the de facto standard for evaluating defenses to adversarial examples. We find, however, that typical adaptive evaluations are incomplete. We demonstrate that thirteen defenses recently published at ICLR, ICML and NeurIPS-and which illustrate a diverse set of defense strategies-can be circumvented despite attempting to perform evaluations using adaptive attacks. While prior evaluation papers focused mainly on the end result-showing that a defense was ineffective-this paper focuses on laying out the methodology and the approach necessary to perform an adaptive attack. Some of our attack strategies are generalizable, but no single strategy would have been sufficient for all defenses. This underlines our key message that adaptive attacks cannot be automated and always require careful and appropriate tuning to a given defense. We hope that these analyses will serve as guidance on how to properly perform adaptive attacks against defenses to adversarial examples, and thus will allow the community to make further progress in building more robust models.
translated by 谷歌翻译
Adversarial examples have attracted significant attention in machine learning, but the reasons for their existence and pervasiveness remain unclear. We demonstrate that adversarial examples can be directly attributed to the presence of non-robust features: features (derived from patterns in the data distribution) that are highly predictive, yet brittle and (thus) incomprehensible to humans. After capturing these features within a theoretical framework, we establish their widespread existence in standard datasets. Finally, we present a simple setting where we can rigorously tie the phenomena we observe in practice to a misalignment between the (human-specified) notion of robustness and the inherent geometry of the data.
translated by 谷歌翻译