深度神经网络(DNN)模型,包括在安全 - 关键域中使用的模型,需要进行彻底测试,以确保它们在不同的情况下可以可靠地表现良好。在本文中,我们提供了用于测试DNN模型的结构覆盖量指标,包括神经元覆盖(NC),K-Multisection神经元覆盖范围(KMNC),TOP-K神经元覆盖范围(TKNC),神经元边界覆盖率(NBC),强元(NBC),强神经元激活覆盖范围(SNAC)和修改条件/决策覆盖范围(MC/DC)。我们评估用于感知任务的现实DNN模型(包括LENET-1,LENET-4,LENET-5和RESNET20)以及自治(TAXINET)中使用的网络的指标。我们还提供了一个工具DNNCOV,可以测量所有这些指标的测试覆盖范围。 DNNCOV向研究人员和从业人员提供了一份信息丰富的报道报告,以评估DNN测试的充分性,比较不同的覆盖范围,并在测试过程中更方便地检查模型的内部。
translated by 谷歌翻译
在现实世界应用中的深度神经网络(DNN)的成功受益于丰富的预训练模型。然而,回溯预训练模型可以对下游DNN的部署构成显着的特洛伊木马威胁。现有的DNN测试方法主要旨在在对抗性设置中找到错误的角壳行为,但未能发现由强大的木马攻击所制作的后门。观察特洛伊木马网络行为表明,它们不仅由先前的工作所提出的单一受损神经元反射,而且归因于在多个神经元的激活强度和频率中的关键神经路径。这项工作制定了DNN后门测试,并提出了录音机框架。通过少量良性示例的关键神经元的差异模糊,我们识别特洛伊木马路径,特别是临界人,并通过模拟所识别的路径中的关键神经元来产生后门测试示例。广泛的实验表明了追索者的优越性,比现有方法更高的检测性能。通过隐秘的混合和自适应攻击来检测到后门的录音机更好,现有方法无法检测到。此外,我们的实验表明,录音所可能会揭示模型动物园中的模型的潜在潜在的背面。
translated by 谷歌翻译
深度神经网络(DNN)已广泛用于许多领域,包括图像处理,医疗诊断和自主驾驶。然而,DNN可以表现出可能导致严重错误的错误行为,特别是在安全关键系统中使用时。灵感来自传统软件系统的测试技术,研究人员提出了神经元覆盖标准,作为比喻源代码覆盖率,以指导DNN模型的测试。尽管对DNN覆盖范围非常积极的研究,但最近的几项研究质疑此类标准在指导DNN测试中的有用性。此外,从实际的角度来看,这些标准是白盒,因为它们需要访问DNN模型的内部或培训数据,这在许多情况下不可行或方便。在本文中,我们将黑盒输入分集度量调查为白盒覆盖标准的替代品。为此,我们首先以受控方式选择和适应三个分集指标和学习它们在输入集中测量实际分集的能力。然后,我们使用两个数据集和三个DNN模型分析其与故障检测的统计关联。我们进一步比较了与最先进的白盒覆盖标准的多样性。我们的实验表明,依赖于测试输入集中嵌入的图像特征的多样性是比覆盖标准更可靠的指示,以有效地指导DNN的测试。事实上,我们发现我们选定的黑盒子分集度量的一个远远超出了现有的覆盖范围,以便在发生故障泄露能力和计算时间方面。结果还确认了疑似,最先进的覆盖度量指标不足以指导测试输入集的构建,以检测尽可能多的自然输入的故障。
translated by 谷歌翻译
Deep learning (DL) systems are increasingly deployed in safety-and security-critical domains including self-driving cars and malware detection, where the correctness and predictability of a system's behavior for corner case inputs are of great importance. Existing DL testing depends heavily on manually labeled data and therefore often fails to expose erroneous behaviors for rare inputs.We design, implement, and evaluate DeepXplore, the first whitebox framework for systematically testing real-world DL systems. First, we introduce neuron coverage for systematically measuring the parts of a DL system exercised by test inputs. Next, we leverage multiple DL systems with similar functionality as cross-referencing oracles to avoid manual checking. Finally, we demonstrate how finding inputs for DL systems that both trigger many differential behaviors and achieve high neuron coverage can be represented as a joint optimization problem and solved efficiently using gradientbased search techniques.DeepXplore efficiently finds thousands of incorrect corner case behaviors (e.g., self-driving cars crashing into guard rails and malware masquerading as benign software) in stateof-the-art DL models with thousands of neurons trained on five popular datasets including ImageNet and Udacity selfdriving challenge data. For all tested DL models, on average, DeepXplore generated one test input demonstrating incorrect behavior within one second while running only on a commodity laptop. We further show that the test inputs generated by DeepXplore can also be used to retrain the corresponding DL model to improve the model's accuracy by up to 3%.
translated by 谷歌翻译
机器学习算法和深度神经网络在几种感知和控制任务中的卓越性能正在推动该行业在安全关键应用中采用这种技术,作为自治机器人和自动驾驶车辆。然而,目前,需要解决几个问题,以使深入学习方法更可靠,可预测,安全,防止对抗性攻击。虽然已经提出了几种方法来提高深度神经网络的可信度,但大多数都是针对特定类的对抗示例量身定制的,因此未能检测到其他角落案件或不安全的输入,这些输入大量偏离训练样本。本文介绍了基于覆盖范式的轻量级监控架构,以增强针对不同不安全输入的模型鲁棒性。特别是,在用于评估多种检测逻辑的架构中提出并测试了四种覆盖分析方法。实验结果表明,该方法有效地检测强大的对抗性示例和分销外输入,引入有限的执行时间和内存要求。
translated by 谷歌翻译
典型的深神经网络(DNN)后门攻击基于输入中嵌入的触发因素。现有的不可察觉的触发因素在计算上昂贵或攻击成功率低。在本文中,我们提出了一个新的后门触发器,该扳机易于生成,不可察觉和高效。新的触发器是一个均匀生成的三维(3D)二进制图案,可以水平和/或垂直重复和镜像,并将其超级贴在三通道图像上,以训练后式DNN模型。新型触发器分散在整个图像中,对单个像素产生微弱的扰动,但共同拥有强大的识别模式来训练和激活DNN的后门。我们还通过分析表明,随着图像的分辨率提高,触发因素越来越有效。实验是使用MNIST,CIFAR-10和BTSR数据集上的RESNET-18和MLP模型进行的。在无遗象的方面,新触发的表现优于现有的触发器,例如Badnet,Trojaned NN和隐藏的后门。新的触发因素达到了几乎100%的攻击成功率,仅将分类准确性降低了不到0.7%-2.4%,并使最新的防御技术无效。
translated by 谷歌翻译
本文总结了DNN测试标准的八种设计要求,考虑到分配性能和实际问题。然后,我们提出了一种新的标准NLC,满足所有这些设计要求。NLC将单个DNN层视为基本计算单元(而不是单个神经元),并捕获神经元输出分布的四个关键特征。因此,NLC表示为神经覆盖,这更准确地描述神经网络如何通过近似分布而不是神经元来理解输入。我们证明NLC与跨多个任务(分类和发电)和数据格式(图像和文本)的测试套件的多样性相关。它发现DNN预测误差的能力是有前途的。由NLC引导的测试输入突变导致暴露错误行为的更高质量和多样性。
translated by 谷歌翻译
背景:当使用深度学习模型时,存在许多可能的漏洞,一些最令人担忧的是对抗性输入,这可能会导致错误的决策。因此,作为解决这些输入脆弱性的软件测试过程的一部分,有必要针对对抗输入进行重新训练。此外,对于节能测试和再培训,数据科学家需要支持,这是最佳的指导指标和最佳数据集配置。目的:我们检查了四个指导指标,用于重新卷积神经网络和三个重新培训配置。我们的目标是在图像分类的背景下,从数据科学家的角度来看,针对有关准确性,资源利用率和时间的对抗性输入的模型。方法:我们在两个数据集中进行了一项实证研究,以进行图像分类。我们探索:(a)通过订购由四个不同的指导指标设置的新培训(神经元覆盖,基于可能性的惊喜充足性,基于距离的惊喜充足性和随机性)来设置的新培训,通过订购新的培训来重新卷积神经网络的准确性,资源利用和时间,(b),(b),(b)具有三种不同配置的卷积神经网络(从头开始和增强数据集,使用权重和增强数据集)以及使用权重和仅使用对抗性输入的三种不同配置的卷积神经网络的准确性和资源利用)。结果:我们揭示了从原始权重的对抗性输入和以惊喜充足度指标的订购为最佳型号W.R.T.进行重新训练。使用的指标。结论:尽管需要更多的研究,但我们建议数据科学家使用上述配置和指标来应对深度学习模型的对抗性输入的脆弱性,因为它们可以在不使用许多输入的情况下针对对抗性输入来改善模型。
translated by 谷歌翻译
深度神经网络(DNN)应用越来越多地成为我们日常生活的一部分,从医疗应用到自动车辆。 DNN的传统验证依赖于准确度措施,然而,对抗示例的存在突出了这些准确度措施的局限性,特别是当DNN集成到安全关键系统中时提出担忧。在本文中,我们呈现HOMRS,一种通过自动构建从一组初始变质关系构建小型优化的高阶变质关系来提振变质测试的方法。 Homrs的骨干是一个多目标搜索;它利用传统系统测试中绘制的想法,例如代码覆盖,测试用例,路径分集以及输入验证。我们将HOMRS应用于MNIST / LENET和SVHN / VGG,我们报告了它的证据表明它建立了一个小而有效的高阶变换,概括到输入数据分布很好。此外,与诸如DeepXplore的类似的生成技术相比,我们表明我们的分发的方法更有效,从不确定量化的观点产生有效的变换,同时通过利用方法的泛化能力来实现更少的计算时间。
translated by 谷歌翻译
The adversarial input generation problem has become central in establishing the robustness and trustworthiness of deep neural nets, especially when they are used in safety-critical application domains such as autonomous vehicles and precision medicine. This is also practically challenging for multiple reasons-scalability is a common issue owing to large-sized networks, and the generated adversarial inputs often lack important qualities such as naturalness and output-impartiality. We relate this problem to the task of patching neural nets, i.e. applying small changes in some of the network$'$s weights so that the modified net satisfies a given property. Intuitively, a patch can be used to produce an adversarial input because the effect of changing the weights can also be brought about by changing the inputs instead. This work presents a novel technique to patch neural networks and an innovative approach of using it to produce perturbations of inputs which are adversarial for the original net. We note that the proposed solution is significantly more effective than the prior state-of-the-art techniques.
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译
由于其在多个工业应用领域的竞争性能,深度学习在我们的日常生活中起着越来越重要的作用。作为基于DL的系统的核心,深度神经网络会自动从精心收集和有组织的培训数据中学习知识,以获得预测看不见数据的标签的能力。与需要全面测试的传统软件系统类似,还需要仔细评估DNN,以确保受过训练的模型的质量满足需求。实际上,评估行业中DNN质量的事实上的标准是检查其在收集的标记测试数据集中的性能(准确性)。但是,准备这样的标记数据通常不容易部分,部分原因是标签工作巨大,即数据标记是劳动密集型的,尤其是每天有大量新的新传入的未标记数据。最近的研究表明,DNN的测试选择是一个有希望的方向,可以通过选择最小的代表性数据来标记并使用这些数据来评估模型来解决此问题。但是,它仍然需要人类的努力,不能自动。在本文中,我们提出了一种名为Aries的新技术,可以使用原始测试数据获得的信息估算新未标记数据的DNN的性能。我们技术背后的关键见解是,该模型在与决策边界具有相似距离的数据上应具有相似的预测准确性。我们对13种数据转换方法的技术进行了大规模评估。结果表明,我们技术的有用性是,白羊座的估计准确性仅为0.03%-2.60%(平均0.61%),从真实的准确性中差。此外,在大多数(128个)情况下,白羊座还优于最先进的选择标记方法。
translated by 谷歌翻译
被证明深度神经网络(DNN)被证明是易受后门攻击的影响。后门通常通过将后门触发注入训练示例中的目标DNN嵌入到目标DNN中,这可能导致目标DNN消除附加的输入附加的输入。现有的后门检测方法通常需要访问原始中毒训练数据,目标DNN的参数,或对每个给定输入的预测置信度,这在许多实际应用中是不切实际的,例如,在设备上部署的DNN。我们地址DNN是完全黑盒的黑匣子硬标签检测问题,只能访问其最终输出标签。我们从优化角度方面接近这个问题,并表明回程检测的目标受到对抗目标的界定。进一步的理论和实证研究表明,这种对抗性物镜导致具有高度偏斜分布的溶液;在后门感染的例子的对抗性地图中经常观察到奇点,我们称之为对抗性奇点现象。基于该观察,我们提出了对抗极值分析(AEVA)来检测黑匣子神经网络中的后门。 AEVA基于来自Monte-Carlo梯度估计计算的对抗地图的极值分析。在多个流行的任务和后门攻击中通过广泛的实验证明,我们的方法有效地检测了黑匣子硬标的场景下的后门攻击。
translated by 谷歌翻译
Deep Neural Networks (DNN) are becoming increasingly more important in assisted and automated driving. Using such entities which are obtained using machine learning is inevitable: tasks such as recognizing traffic signs cannot be developed reasonably using traditional software development methods. DNN however do have the problem that they are mostly black boxes and therefore hard to understand and debug. One particular problem is that they are prone to hidden backdoors. This means that the DNN misclassifies its input, because it considers properties that should not be decisive for the output. Backdoors may either be introduced by malicious attackers or by inappropriate training. In any case, detecting and removing them is important in the automotive area, as they might lead to safety violations with potentially severe consequences. In this paper, we introduce a novel method to remove backdoors. Our method works for both intentional as well as unintentional backdoors. We also do not require prior knowledge about the shape or distribution of backdoors. Experimental evidence shows that our method performs well on several medium-sized examples.
translated by 谷歌翻译
AI安全社区的一个主要目标是为现实世界应用安全可靠地生产和部署深入学习模型。为此,近年来,在生产阶段(或培训阶段)和相应的防御中,基于数据中毒基于深度神经网络(DNN)的后门攻击以及相应的防御。具有讽刺意味的是,部署阶段的后门攻击,这些攻击通常可以在不专业用户的设备中发生,因此可以说是在现实世界的情景中威胁要威胁,得以更少的关注社区。我们将这种警惕的不平衡归因于现有部署阶段后门攻击算法的弱实用性以及现实世界攻击示范的不足。为了填补空白,在这项工作中,我们研究了对DNN的部署阶段后门攻击的现实威胁。我们基于普通使用的部署阶段攻击范式 - 对抗对抗权重攻击的研究,主体选择性地修改模型权重,以将后台嵌入到部署的DNN中。为了实现现实的实用性,我们提出了第一款灰度盒和物理可实现的重量攻击算法,即替换注射,即子网替换攻击(SRA),只需要受害者模型的架构信息,并且可以支持现实世界中的物理触发器。进行了广泛的实验模拟和系统级真实的世界攻击示范。我们的结果不仅提出了所提出的攻击算法的有效性和实用性,还揭示了一种新型计算机病毒的实际风险,这些计算机病毒可能会广泛传播和悄悄地将后门注入用户设备中的DNN模型。通过我们的研究,我们要求更多地关注DNN在部署阶段的脆弱性。
translated by 谷歌翻译
A recent trojan attack on deep neural network (DNN) models is one insidious variant of data poisoning attacks. Trojan attacks exploit an effective backdoor created in a DNN model by leveraging the difficulty in interpretability of the learned model to misclassify any inputs signed with the attacker's chosen trojan trigger. Since the trojan trigger is a secret guarded and exploited by the attacker, detecting such trojan inputs is a challenge, especially at run-time when models are in active operation. This work builds STRong Intentional Perturbation (STRIP) based run-time trojan attack detection system and focuses on vision system. We intentionally perturb the incoming input, for instance by superimposing various image patterns, and observe the randomness of predicted classes for perturbed inputs from a given deployed model-malicious or benign. A low entropy in predicted classes violates the input-dependence property of a benign model and implies the presence of a malicious input-a characteristic of a trojaned input. The high efficacy of our method is validated through case studies on three popular and contrasting datasets: MNIST, CIFAR10 and GTSRB. We achieve an overall false acceptance rate (FAR) of less than 1%, given a preset false rejection rate (FRR) of 1%, for different types of triggers. Using CIFAR10 and GTSRB, we have empirically achieved result of 0% for both FRR and FAR. We have also evaluated STRIP robustness against a number of trojan attack variants and adaptive attacks.
translated by 谷歌翻译
最近的研究表明,深神经网络(DNN)易受对抗性攻击的影响,包括逃避和后门(中毒)攻击。在防守方面,有密集的努力,改善了对逃避袭击的经验和可怜的稳健性;然而,对后门攻击的可稳健性仍然很大程度上是未开发的。在本文中,我们专注于认证机器学习模型稳健性,反对一般威胁模型,尤其是后门攻击。我们首先通过随机平滑技术提供统一的框架,并展示如何实例化以证明对逃避和后门攻击的鲁棒性。然后,我们提出了第一个强大的培训过程Rab,以平滑训练有素的模型,并证明其稳健性对抗后门攻击。我们派生机学习模型的稳健性突出了培训的机器学习模型,并证明我们的鲁棒性受到紧张。此外,我们表明,可以有效地训练强大的平滑模型,以适用于诸如k最近邻分类器的简单模型,并提出了一种精确的平滑训练算法,该算法消除了从这种模型的噪声分布采样采样的需要。经验上,我们对MNIST,CIFAR-10和Imagenet数据集等DNN,差异私有DNN和K-NN模型等不同机器学习(ML)型号进行了全面的实验,并为反卧系攻击提供认证稳健性的第一个基准。此外,我们在SPAMBase表格数据集上评估K-NN模型,以展示所提出的精确算法的优点。对多元化模型和数据集的综合评价既有关于普通训练时间攻击的进一步强劲学习策略的多样化模型和数据集的综合评价。
translated by 谷歌翻译
作为深度图像分类应用,例如,人脸识别,在我们日常生活中越来越普遍,他们的公平问题提高了越来越多的关注。因此,在部署之前全面地测试这些应用的公平性是至关重要的。现有的公平测试方法遭受以下限制:1)适用性,即它们仅适用于结构化数据或文本,而无需处理图像分类应用的语义水平中的高维和抽象域采样; 2)功能,即,它们在不提供测试标准的情况下产生不公平的样本,以表征模型的公平性充足。为了填补差距,我们提出了Deepfait,是专门为深图图像分类应用而设计的系统公平测试框架。 Deepfait由几种重要组成部分组成,实现了对深度图像分类应用的有效公平测试的重要组成部分:1)神经元选择策略,用于识别与公平相关神经元的神经元; 2)一组多粒度充足度指标,以评估模型的公平性; 3)测试选择算法有效地修复公平问题。我们对广泛采用的大型面部识别应用,即VGGFace和Fairface进行了实验。实验结果证实,我们的方法可以有效地识别公平相关的神经元,表征模型的公平性,并选择最有价值的测试用例来减轻模型的公平问题。
translated by 谷歌翻译
后门攻击已被证明是对深度学习模型的严重安全威胁,并且检测给定模型是否已成为后门成为至关重要的任务。现有的防御措施主要建立在观察到后门触发器通常尺寸很小或仅影响几个神经元激活的观察结果。但是,在许多情况下,尤其是对于高级后门攻击,违反了上述观察结果,阻碍了现有防御的性能和适用性。在本文中,我们提出了基于新观察的后门防御范围。也就是说,有效的后门攻击通常需要对中毒训练样本的高预测置信度,以确保训练有素的模型具有很高的可能性。基于此观察结果,Dtinspector首先学习一个可以改变最高信心数据的预测的补丁,然后通过检查在低信心数据上应用学习补丁后检查预测变化的比率来决定后门的存在。对五次后门攻击,四个数据集和三种高级攻击类型的广泛评估证明了拟议防御的有效性。
translated by 谷歌翻译