Deep neural networks are incredibly vulnerable to crafted, human-imperceptible adversarial perturbations. Although adversarial training (AT) has proven to be an effective defense approach, we find that the AT-trained models heavily rely on the input low-frequency content for judgment, accounting for the low standard accuracy. To close the large gap between the standard and robust accuracies during AT, we investigate the frequency difference between clean and adversarial inputs, and propose a frequency regularization (FR) to align the output difference in the spectral domain. Besides, we find Stochastic Weight Averaging (SWA), by smoothing the kernels over epochs, further improves the robustness. Among various defense schemes, our method achieves the strongest robustness against attacks by PGD-20, C\&W and Autoattack, on a WideResNet trained on CIFAR-10 without any extra data.
translated by 谷歌翻译
在过去的几年中,卷积神经网络(CNN)一直是广泛的计算机视觉任务中的主导神经架构。从图像和信号处理的角度来看,这一成功可能会令人惊讶,因为大多数CNN的固有空间金字塔设计显然违反了基本的信号处理法,即在其下采样操作中对定理进行采样。但是,由于不良的采样似乎不影响模型的准确性,因此在模型鲁棒性开始受到更多关注之前,该问题已被广泛忽略。最近的工作[17]在对抗性攻击和分布变化的背景下,毕竟表明,CNN的脆弱性与不良下降采样操作引起的混叠伪像之间存在很强的相关性。本文以这些发现为基础,并引入了一个可混合的免费下采样操作,可以轻松地插入任何CNN体系结构:频lowcut池。我们的实验表明,结合简单而快速的FGSM对抗训练,我们的超参数无操作员显着提高了模型的鲁棒性,并避免了灾难性的过度拟合。
translated by 谷歌翻译
The study on improving the robustness of deep neural networks against adversarial examples grows rapidly in recent years. Among them, adversarial training is the most promising one, which flattens the input loss landscape (loss change with respect to input) via training on adversarially perturbed examples. However, how the widely used weight loss landscape (loss change with respect to weight) performs in adversarial training is rarely explored. In this paper, we investigate the weight loss landscape from a new perspective, and identify a clear correlation between the flatness of weight loss landscape and robust generalization gap. Several well-recognized adversarial training improvements, such as early stopping, designing new objective functions, or leveraging unlabeled data, all implicitly flatten the weight loss landscape. Based on these observations, we propose a simple yet effective Adversarial Weight Perturbation (AWP) to explicitly regularize the flatness of weight loss landscape, forming a double-perturbation mechanism in the adversarial training framework that adversarially perturbs both inputs and weights. Extensive experiments demonstrate that AWP indeed brings flatter weight loss landscape and can be easily incorporated into various existing adversarial training methods to further boost their adversarial robustness.
translated by 谷歌翻译
对抗性例子的现象说明了深神经网络最基本的漏洞之一。在推出这一固有的弱点的各种技术中,对抗性训练已成为学习健壮模型的最有效策略。通常,这是通过平衡强大和自然目标来实现的。在这项工作中,我们旨在通过执行域不变的功能表示,进一步优化鲁棒和标准准确性之间的权衡。我们提出了一种新的对抗训练方法,域不变的对手学习(DIAL),该方法学习了一个既健壮又不变的功能表示形式。拨盘使用自然域及其相应的对抗域上的域对抗神经网络(DANN)的变体。在源域由自然示例组成和目标域组成的情况下,是对抗性扰动的示例,我们的方法学习了一个被限制的特征表示,以免区分自然和对抗性示例,因此可以实现更强大的表示。拨盘是一种通用和模块化技术,可以轻松地将其纳入任何对抗训练方法中。我们的实验表明,将拨号纳入对抗训练过程中可以提高鲁棒性和标准精度。
translated by 谷歌翻译
改善深度神经网络(DNN)对抗对抗示例的鲁棒性是安全深度学习的重要而挑战性问题。跨越现有的防御技术,具有预计梯度体面(PGD)的对抗培训是最有效的。对手训练通过最大化分类丢失,通过最大限度地减少从内在最大化生成的逆势示例的丢失来解决\ excepitient {内部最大化}生成侵略性示例的初始最大优化问题。 。因此,衡量内部最大化的衡量标准是如何对对抗性培训至关重要的。在本文中,我们提出了这种标准,即限制优化(FOSC)的一阶静止条件,以定量评估内部最大化中发现的对抗性实例的收敛质量。通过FOSC,我们发现,为了确保更好的稳健性,必须在培训的\ Texit {稍后的阶段}中具有更好的收敛质量的对抗性示例。然而,在早期阶段,高收敛质量的对抗例子不是必需的,甚至可能导致稳健性差。基于这些观察,我们提出了一种\ Texit {动态}培训策略,逐步提高产生的对抗性实例的收敛质量,这显着提高了对抗性培训的鲁棒性。我们的理论和经验结果表明了该方法的有效性。
translated by 谷歌翻译
已证明深度神经网络容易受到对抗噪声的影响,从而促进了针对对抗攻击的防御。受到对抗噪声包含良好的特征的动机,并且对抗数据和自然数据之间的关系可以帮助推断自然数据并做出可靠的预测,在本文中,我们研究通过学习对抗性标签之间的过渡关系来建模对抗性噪声(即用于生成对抗数据的翻转标签)和天然标签(即自然数据的地面真实标签)。具体而言,我们引入了一个依赖实例的过渡矩阵来关联对抗标签和天然标签,可以将其无缝嵌入目标模型(使我们能够建模更强的自适应对手噪声)。经验评估表明,我们的方法可以有效提高对抗性的准确性。
translated by 谷歌翻译
到目前为止对抗训练是抵御对抗例子的最有效的策略。然而,由于每个训练步骤中的迭代对抗性攻击,它遭受了高的计算成本。最近的研究表明,通过随机初始化执行单步攻击,可以实现快速的对抗训练。然而,这种方法仍然落后于稳定性和模型稳健性的最先进的对手训练算法。在这项工作中,我们通过观察随机平滑的随机初始化来更好地优化内部最大化问题,对快速对抗培训进行新的理解。在这种新的视角之后,我们还提出了一种新的初始化策略,向后平滑,进一步提高单步强大培训方法的稳定性和模型稳健性。多个基准测试的实验表明,我们的方法在使用更少的训练时间(使用相同的培训计划时,使用更少的培训时间($ \ sim $ 3x改进)时,我们的方法达到了类似的模型稳健性。
translated by 谷歌翻译
深度神经网络(DNN)容易受到对抗性示例的影响,其中DNN由于含有不可察觉的扰动而被误导为虚假输出。对抗性训练是一种可靠有效的防御方法,可能会大大减少神经网络的脆弱性,并成为强大学习的事实上的标准。尽管许多最近的作品实践了以数据为中心的理念,例如如何生成更好的对抗性示例或使用生成模型来产生额外的培训数据,但我们回顾了模型本身,并从深度特征分布的角度重新审视对抗性的鲁棒性有见地的互补性。在本文中,我们建议分支正交性对抗训练(BORT)获得最先进的性能,仅使用原始数据集用于对抗训练。为了练习我们整合多个正交解决方案空间的设计思想,我们利用一个简单明了的多分支神经网络,可消除对抗性攻击而不会增加推理时间。我们启发提出相应的损耗函数,分支 - 正交丢失,以使多支出模型正交的每个溶液空间。我们分别在CIFAR-10,CIFAR-100和SVHN上评估了我们的方法,分别针对\ ell _ {\ infty}的规范触发尺寸\ epsilon = 8/255。进行了详尽的实验,以表明我们的方法超出了所有最新方法,而无需任何技巧。与所有不使用其他数据进行培训的方法相比,我们的模型在CIFAR-10和CIFAR-100上实现了67.3%和41.5%的鲁棒精度(在最先进的ART上提高了 +7.23%和 +9.07% )。我们还使用比我们的训练组胜过比我们的方法的表现要大得多。我们所有的模型和代码均可在https://github.com/huangd1999/bort上在线获得。
translated by 谷歌翻译
我们从频道明智激活的角度调查CNN的对抗性鲁棒性。通过比较\ Textit {非鲁棒}(通常训练)和\ exingit {REXITIT {REARUSTIFIED}(普及培训的)模型,我们观察到对抗性培训(AT)通过将频道明智的数据与自然的渠道和自然的对抗激活对齐来强调CNN同行。然而,在处理逆势数据时仍仍会过度激活以\ texit {excy-computive}(nr)的频道仍会过度激活。此外,我们还观察到,在所有课程上不会导致类似的稳健性。对于强大的类,具有较大激活大小的频道通常是更长的\ extedit {正相关}(pr)到预测,但这种对齐不适用于非鲁棒类。鉴于这些观察结果,我们假设抑制NR通道并对齐PR与其相关性进一步增强了在其下的CNN的鲁棒性。为了检查这个假设,我们介绍了一种新的机制,即\下划线{C} Hannel-Wise \ Underline {i} Mportance的\下划线{F} eature \ Underline {s}选举(CIFS)。 CIFS通过基于与预测的相关性产生非负乘法器来操纵某些层的激活。在包括CIFAR10和SVHN的基准数据集上的广泛实验明确验证了强制性CNN的假设和CIFS的有效性。 \ url {https://github.com/hanshuyan/cifs}
translated by 谷歌翻译
作为反对攻击的最有效的防御方法之一,对抗性训练倾向于学习包容性的决策边界,以提高深度学习模型的鲁棒性。但是,由于沿对抗方向的边缘的大幅度和不必要的增加,对抗性训练会在自然实例和对抗性示例之间引起严重的交叉,这不利于平衡稳健性和自然准确性之间的权衡。在本文中,我们提出了一种新颖的对抗训练计划,以在稳健性和自然准确性之间进行更好的权衡。它旨在学习一个中度包容的决策边界,这意味着决策边界下的自然示例的边缘是中等的。我们称此方案为中等边缘的对抗训练(MMAT),该方案生成更细粒度的对抗示例以减轻交叉问题。我们还利用了经过良好培训的教师模型的逻辑来指导我们的模型学习。最后,MMAT在Black-Box和White-Box攻击下都可以实现高自然的精度和鲁棒性。例如,在SVHN上,实现了最新的鲁棒性和自然精度。
translated by 谷歌翻译
对抗训练方法是针对对抗性例子的最先进(SOTA)经验防御方法。事实证明,许多正则化方法与对抗训练的组合有效。然而,这种正则化方法是在时域中实现的。由于对抗性脆弱性可以被视为一种高频现象,因此必须调节频域中的对抗训练的神经网络模型。面对这些挑战,我们对小波的正则化属性进行了理论分析,可以增强对抗性训练。我们提出了一种基于HAAR小波分解的小波正则化方法,该方法称为小波平均池。该小波正则化模块集成到宽的残留神经网络中,因此形成了新的WideWavelEtResnet模型。在CIFAR-10和CIFAR-100的数据集上,我们提出的对抗小波训练方法在不同类型的攻击下实现了相当大的鲁棒性。它验证了以下假设:我们的小波正则化方法可以增强对抗性的鲁棒性,尤其是在深宽的神经网络中。实施了频率原理(F原理)和解释性的可视化实验,以显示我们方法的有效性。提出了基于不同小波碱函数的详细比较。该代码可在存储库中获得:\ url {https://github.com/momo1986/AdversarialWavelTraining}。
translated by 谷歌翻译
对抗训练(AT)在防御对抗例子方面表现出色。最近的研究表明,示例对于AT期间模型的最终鲁棒性并不同样重要,即,所谓的硬示例可以攻击容易表现出比对最终鲁棒性的鲁棒示例更大的影响。因此,保证硬示例的鲁棒性对于改善模型的最终鲁棒性至关重要。但是,定义有效的启发式方法来寻找辛苦示例仍然很困难。在本文中,受到信息瓶颈(IB)原则的启发,我们发现了一个具有高度共同信息及其相关的潜在表示的例子,更有可能受到攻击。基于此观察,我们提出了一种新颖有效的对抗训练方法(Infoat)。鼓励Infoat找到具有高相互信息的示例,并有效利用它们以提高模型的最终鲁棒性。实验结果表明,与几种最先进的方法相比,Infoat在不同数据集和模型之间达到了最佳的鲁棒性。
translated by 谷歌翻译
对抗性训练(AT)及其变体在过去几年来改善对对抗性扰动和常见腐败的神经网络的鲁棒性方面取得了长足的进步。 AT及其变体的算法设计集中在指定的扰动强度$ \ epsilon $上,并且仅利用该$ \ epsilon $ -Robust模型的性能的反馈来改善算法。在这项工作中,我们专注于在$ \ epsilon $值的频谱上训练的模型。我们分析了三个观点:模型性能,中间特征精度和卷积滤波器灵敏度。在每种情况下,我们都会确定AT的替代改进,否则在单个$ \ epsilon $中并不明显。具体来说,我们发现,对于以某种强度$ \ delta $的pgd攻击,有一个型号以某种稍大的强度$ \ epsilon $,但没有更大的范围,可以概括它。因此,我们建议过度设计鲁棒性,我们建议以$ \ epsilon $略高于$ \ delta $的培训模型。其次,我们观察到(在各种$ \ epsilon $值中),鲁棒性对中间特征的精度,尤其是在第一层和第二层之后的精度高度敏感。因此,我们建议在防御措施中添加简单的量化,以提高可见和看不见的适应性攻击的准确性。第三,我们分析了增加$ \ epsilon $的每一层模型的卷积过滤器,并注意到第一和第二层的卷积过滤器可能完全负责放大输入扰动。我们通过在CIFAR-10和CIFAR-10-C数据集上使用Resnet和WideSnet模型进行实验,介绍我们的发现并证明我们的技术。
translated by 谷歌翻译
Adversarial training based on the minimax formulation is necessary for obtaining adversarial robustness of trained models. However, it is conservative or even pessimistic so that it sometimes hurts the natural generalization. In this paper, we raise a fundamental question-do we have to trade off natural generalization for adversarial robustness? We argue that adversarial training is to employ confident adversarial data for updating the current model. We propose a novel formulation of friendly adversarial training (FAT): rather than employing most adversarial data maximizing the loss, we search for least adversarial data (i.e., friendly adversarial data) minimizing the loss, among the adversarial data that are confidently misclassified. Our novel formulation is easy to implement by just stopping the most adversarial data searching algorithms such as PGD (projected gradient descent) early, which we call early-stopped PGD. Theoretically, FAT is justified by an upper bound of the adversarial risk. Empirically, early-stopped PGD allows us to answer the earlier question negatively-adversarial robustness can indeed be achieved without compromising the natural generalization.* Equal contribution † Preliminary work was done during an internship at RIKEN AIP.
translated by 谷歌翻译
为了应对对抗性实例的威胁,对抗性培训提供了一种有吸引力的选择,可以通过在线增强的对抗示例中的培训模型提高模型稳健性。然而,大多数现有的对抗训练方法通过强化对抗性示例来侧重于提高鲁棒的准确性,但忽略了天然数据和对抗性实施例之间的增加,导致自然精度急剧下降。为了维持自然和强大的准确性之间的权衡,我们从特征适应的角度缓解了转变,并提出了一种特征自适应对抗训练(FAAT),这些培训(FAAT)跨越自然数据和对抗示例优化类条件特征适应。具体而言,我们建议纳入一类条件鉴别者,以鼓励特征成为(1)类鉴别的和(2)不变导致对抗性攻击的变化。新型的FAAT框架通过在天然和对抗数据中产生具有类似分布的特征来实现自然和强大的准确性之间的权衡,并实现从类鉴别特征特征中受益的更高的整体鲁棒性。在各种数据集上的实验表明,FAAT产生更多辨别特征,并对最先进的方法表现有利。代码在https://github.com/visionflow/faat中获得。
translated by 谷歌翻译
评估防御模型的稳健性是对抗对抗鲁棒性研究的具有挑战性的任务。僵化的渐变,先前已经发现了一种梯度掩蔽,以许多防御方法存在并导致鲁棒性的错误信号。在本文中,我们确定了一种更细微的情况,称为不平衡梯度,也可能导致过高的对抗性鲁棒性。当边缘损耗的一个术语的梯度主导并将攻击朝向次优化方向推动时,发生不平衡梯度的现象。为了利用不平衡的梯度,我们制定了分解利润率损失的边缘分解(MD)攻击,并通过两阶段过程分别探讨了这些术语的攻击性。我们还提出了一个Multared和Ensemble版本的MD攻击。通过调查自2018年以来提出的17个防御模型,我们发现6种型号易受不平衡梯度的影响,我们的MD攻击可以减少由最佳基线独立攻击评估的鲁棒性另外2%。我们还提供了对不平衡梯度的可能原因和有效对策的深入分析。
translated by 谷歌翻译
Deep Neural Networks are vulnerable to adversarial attacks. Among many defense strategies, adversarial training with untargeted attacks is one of the most effective methods. Theoretically, adversarial perturbation in untargeted attacks can be added along arbitrary directions and the predicted labels of untargeted attacks should be unpredictable. However, we find that the naturally imbalanced inter-class semantic similarity makes those hard-class pairs become virtual targets of each other. This study investigates the impact of such closely-coupled classes on adversarial attacks and develops a self-paced reweighting strategy in adversarial training accordingly. Specifically, we propose to upweight hard-class pair losses in model optimization, which prompts learning discriminative features from hard classes. We further incorporate a term to quantify hard-class pair consistency in adversarial training, which greatly boosts model robustness. Extensive experiments show that the proposed adversarial training method achieves superior robustness performance over state-of-the-art defenses against a wide range of adversarial attacks.
translated by 谷歌翻译
发现深神经网络(DNN)容易受到对抗噪声的影响。它们通常被对抗样本误导,以做出错误的预测。为了减轻本文,我们从信息理论的角度研究了目标模型的输出与输入对抗样本之间的依赖性,并提出了一种对抗性防御方法。具体而言,我们首先通过估计输入和自然模式之间的相互信息(MI)(称为天然MI)以及分别在输出和输入的对抗模式之间的依赖性(称为对抗MI)。我们发现,与W.R.T.相比,对抗样品通常具有更大的对抗性MI和较小的天然MI。天然样品。在这一观察结果的推动下,我们建议通过在训练过程中最大化自然MI并最大程度地减少对抗性MI来增强对抗性的鲁棒性。这样,目标模型应更加关注包含客观语义的自然模式。经验评估表明,我们的方法可以有效地提高针对多次攻击的对抗精度。
translated by 谷歌翻译
已知深神经网络(DNN)容易受到对抗性攻击的影响。已经提出了一系列防御方法来培训普遍稳健的DNN,其中对抗性培训已经证明了有希望的结果。然而,尽管对对抗性培训开发的初步理解,但从架构角度来看,它仍然不明确,从架构角度来看,什么配置可以导致更强大的DNN。在本文中,我们通过全面调查网络宽度和深度对前对方培训的DNN的鲁棒性的全面调查来解决这一差距。具体地,我们进行以下关键观察:1)更多参数(更高的模型容量)不一定有助于对抗冒险; 2)网络的最后阶段(最后一组块)降低能力实际上可以改善对抗性的鲁棒性; 3)在相同的参数预算下,存在对抗性鲁棒性的最佳架构配置。我们还提供了一个理论分析,解释了为什么这种网络配置可以帮助鲁棒性。这些架构见解可以帮助设计对抗的强制性DNN。代码可用于\ url {https://github.com/hanxunh/robustwrn}。
translated by 谷歌翻译
尽管深度神经网络(DNN)在各种应用中取得了突出的性能,但众所周知,DNN易于在清洁/原始样品中具有难以察觉的扰动的对抗性实施例/样品(AES)。克服对抗对抗攻击的现有防御方法的弱点,这破坏了原始样本的信息,导致目标分类器精度的减少,提高了增强的反对对抗攻击方法IDFR(通过输入去噪和功能恢复) 。所提出的IDFR是由增强型输入丹麦优化的增强型输入丹麦(ID)和隐藏的有损特征恢复器(FR)组成。在基准数据集上进行的广泛实验表明,所提出的IDFR优于各种最先进的防御方法,对保护目标模型免受各种对抗黑盒或白盒攻击的高度有效。 \脚注{souce代码释放:\ href {https://github.com/id-fr/idfr} {https://github.com/id-fr/idfr}}
translated by 谷歌翻译