由于具有强大的功能学习能力和高效率,深层哈希在大规模图像检索中取得了巨大的成功。同时,广泛的作品表明,深层神经网络(DNN)容易受到对抗例子的影响,并且探索针对深哈希的对抗性攻击吸引了许多研究工作。然而,尚未对Backdoor攻击(对DNNS的另一个著名威胁)进行深入研究。尽管图像分类领域已经提出了各种后门攻击,但现有方法未能实现真正的不可思议的后门攻击,该攻击享受着隐形触发器并同时享受清洁标签设置,而且它们也无法满足图像检索后门的内在需求。在本文中,我们提出了Badhash,这是第一个基于生成的无透感的后门攻击,对深哈希的攻击,它可以有效地用干净的标签产生隐形和投入特定的中毒图像。具体而言,我们首先提出了一种新的条件生成对抗网络(CGAN)管道,以有效生成中毒样品。对于任何给定的良性图像,它试图产生具有独特无形扳机的自然中毒对应物。为了提高攻击效果,我们引入了基于标签的对比学习网络LabCln来利用不同标签的语义特征,随后将其用于混淆和误导目标模型以学习嵌入式触发器。我们终于探索了在哈希空间中对图像检索的后门攻击的机制。在多个基准数据集上进行的广泛实验证明,Badhash可以生成不察觉的中毒样本,具有强大的攻击能力和对最新的深层哈希方案的可转移性。主要主题领域:[参与]多媒体搜索和建议
translated by 谷歌翻译
Deep hashing has been extensively utilized in massive image retrieval because of its efficiency and effectiveness. However, deep hashing models are vulnerable to adversarial examples, making it essential to develop adversarial defense methods for image retrieval. Existing solutions achieved limited defense performance because of using weak adversarial samples for training and lacking discriminative optimization objectives to learn robust features. In this paper, we present a min-max based Center-guided Adversarial Training, namely CgAT, to improve the robustness of deep hashing networks through worst adversarial examples. Specifically, we first formulate the center code as a semantically-discriminative representative of the input image content, which preserves the semantic similarity with positive samples and dissimilarity with negative examples. We prove that a mathematical formula can calculate the center code immediately. After obtaining the center codes in each optimization iteration of the deep hashing network, they are adopted to guide the adversarial training process. On the one hand, CgAT generates the worst adversarial examples as augmented data by maximizing the Hamming distance between the hash codes of the adversarial examples and the center codes. On the other hand, CgAT learns to mitigate the effects of adversarial samples by minimizing the Hamming distance to the center codes. Extensive experiments on the benchmark datasets demonstrate the effectiveness of our adversarial training algorithm in defending against adversarial attacks for deep hashing-based retrieval. Compared with the current state-of-the-art defense method, we significantly improve the defense performance by an average of 18.61%, 12.35%, and 11.56% on FLICKR-25K, NUS-WIDE, and MS-COCO, respectively.
translated by 谷歌翻译
深度神经网络众所周知,很容易受到对抗性攻击和后门攻击的影响,在该攻击中,对输入的微小修改能够误导模型以给出错误的结果。尽管已经广泛研究了针对对抗性攻击的防御措施,但有关减轻后门攻击的调查仍处于早期阶段。尚不清楚防御这两次攻击之间是否存在任何连接和共同特征。我们对对抗性示例与深神网络的后门示例之间的联系进行了全面的研究,以寻求回答以下问题:我们可以使用对抗检测方法检测后门。我们的见解是基于这样的观察结果,即在推理过程中,对抗性示例和后门示例都有异常,与良性​​样本高度区分。结果,我们修改了四种现有的对抗防御方法来检测后门示例。广泛的评估表明,这些方法可靠地防止后门攻击,其准确性比检测对抗性实例更高。这些解决方案还揭示了模型灵敏度,激活空间和特征空间中对抗性示例,后门示例和正常样本的关系。这能够增强我们对这两次攻击和防御机会的固有特征的理解。
translated by 谷歌翻译
大量证据表明,深神经网络(DNN)容易受到后门攻击的影响,这激发了后门检测方法的发展。现有的后门检测方法通常是针对具有单个特定类型(例如基于补丁或基于扰动)的后门攻击而定制的。但是,在实践中,对手可能会产生多种类型的后门攻击,这挑战了当前的检测策略。基于以下事实:对抗性扰动与触发模式高度相关,本文提出了自适应扰动生成(APG)框架,以通过自适应注射对抗性扰动来检测多种类型的后门攻击。由于不同的触发模式在相同的对抗扰动下显示出高度多样的行为,因此我们首先设计了全球到本地策略,以通过调整攻击的区域和预算来适应多种类型的后门触发器。为了进一步提高扰动注入的效率,我们引入了梯度引导的掩模生成策略,以寻找最佳区域以进行对抗攻击。在多个数据集(CIFAR-10,GTSRB,Tiny-Imagenet)上进行的广泛实验表明,我们的方法以大幅度优于最先进的基线(+12%)。
translated by 谷歌翻译
随着人工智能和机器学习的日益普及,文献中已经提出了针对深度学习模型的广泛攻击。逃避攻击和中毒攻击都试图利用对抗性变化的样本来欺骗受害者模型以错误地分类对抗样本。尽管这种攻击声称是隐形的,即对人的眼睛看不见,但很少评估这种说法。在本文中,我们介绍了第一个大规模研究,涉及对深度学习的攻击中使用的对抗样本的隐身性。我们已经对六个流行的基准数据集实施了20种代表性的对抗ML攻击。我们使用两种互补方法评估了攻击样本的隐身性:(1)一项数值研究,采用24个指标用于图像相似性或质量评估; (2)对3组问卷的用户研究,从1,000多个回答中收集了20,000多次注释。我们的结果表明,大多数现有攻击引入了不可忽略的扰动,这些扰动对人的眼睛并不隐秘。我们进一步分析了有助于攻击隐身性的因素。我们进一步研究了数值分析与用户研究之间的相关性,并证明某些图像质量指标可能在攻击设计中提供有用的指导,而评估的图像质量和攻击的视觉隐身性之间仍然存在显着差距。
translated by 谷歌翻译
与令人印象深刻的进步触动了我们社会的各个方面,基于深度神经网络(DNN)的AI技术正在带来越来越多的安全问题。虽然在考试时间运行的攻击垄断了研究人员的初始关注,但是通过干扰培训过程来利用破坏DNN模型的可能性,代表了破坏训练过程的可能性,这是破坏AI技术的可靠性的进一步严重威胁。在后门攻击中,攻击者损坏了培训数据,以便在测试时间诱导错误的行为。然而,测试时间误差仅在存在与正确制作的输入样本对应的触发事件的情况下被激活。通过这种方式,损坏的网络继续正常输入的预期工作,并且只有当攻击者决定激活网络内隐藏的后门时,才会发生恶意行为。在过去几年中,后门攻击一直是强烈的研究活动的主题,重点是新的攻击阶段的发展,以及可能对策的提议。此概述文件的目标是审查发表的作品,直到现在,分类到目前为止提出的不同类型的攻击和防御。指导分析的分类基于攻击者对培训过程的控制量,以及防御者验证用于培训的数据的完整性,并监控DNN在培训和测试中的操作时间。因此,拟议的分析特别适合于参考他们在运营的应用方案的攻击和防御的强度和弱点。
translated by 谷歌翻译
随着深度神经网络(DNN)的广泛应用,后门攻击逐渐引起了人们的关注。后门攻击是阴险的,中毒模型在良性样本上的表现良好,只有在给定特定输入时才会触发,这会导致神经网络产生不正确的输出。最先进的后门攻击工作是通过数据中毒(即攻击者注入中毒样品中的数据集中)实施的,并且用该数据集训练的模型被后门感染。但是,当前研究中使用的大多数触发因素都是在一小部分图像上修补的固定图案,并且经常被明显错误地标记,这很容易被人类或防御方法(例如神经清洁和前哨)检测到。同样,DNN很难在没有标记的情况下学习,因为它们可能会忽略小图案。在本文中,我们提出了一种基于频域的广义后门攻击方法,该方法可以实现后门植入而不会错标和访问训练过程。它是人类看不见的,能够逃避常用的防御方法。我们在三个数据集(CIFAR-10,STL-10和GTSRB)的无标签和清洁标签案例中评估了我们的方法。结果表明,我们的方法可以在所有任务上实现高攻击成功率(高于90%),而不会在主要任务上进行大量绩效降解。此外,我们评估了我们的方法的旁路性能,以进行各种防御措施,包括检测训练数据(即激活聚类),输入的预处理(即过滤),检测输入(即Sentinet)和检测模型(即神经清洁)。实验结果表明,我们的方法对这种防御能力表现出极好的鲁棒性。
translated by 谷歌翻译
后门攻击威胁着深度神经网络(DNNS)。对于隐身性,研究人员提出了清洁标签的后门攻击,这要求对手不要更改中毒训练数据集的标签。由于正确的图像标签对,清洁标签的设置使攻击更加隐秘,但仍然存在一些问题:首先,传统的中毒训练数据方法无效;其次,传统的触发器并不是仍然可感知的隐形。为了解决这些问题,我们提出了一种两相和特定图像的触发器生成方法,以增强清洁标签的后门攻击。我们的方法是(1)功能强大:我们的触发器都可以同时促进后门攻击中的两个阶段(即后门植入和激活阶段)。 (2)隐身:我们的触发器是从每个图像中生成的。它们是特定于图像的而不是固定触发器。广泛的实验表明,我们的方法可以达到奇妙的攻击成功率〜(98.98%),中毒率低(5%),在许多评估指标下高隐身,并且对后门防御方法有抵抗力。
translated by 谷歌翻译
最近的研究表明,深层神经网络容易受到不同类型的攻击,例如对抗性攻击,数据中毒攻击和后门攻击。其中,后门攻击是最狡猾的攻击,几乎可以在深度学习管道的每个阶段发生。因此,后门攻击吸引了学术界和行业的许多兴趣。但是,大多数现有的后门攻击方法对于某些轻松的预处理(例如常见数据转换)都是可见的或脆弱的。为了解决这些限制,我们提出了一种强大而无形的后门攻击,称为“毒药”。具体而言,我们首先利用图像结构作为目标中毒区域,并用毒药(信息)填充它们以生成触发图案。由于图像结构可以在数据转换期间保持其语义含义,因此这种触发模式对数据转换本质上是强大的。然后,我们利用深度注射网络将这种触发模式嵌入封面图像中,以达到隐身性。与现有流行的后门攻击方法相比,毒药的墨水在隐形和健壮性方面都优于表现。通过广泛的实验,我们证明了毒药不仅是不同数据集和网络体系结构的一般性,而且对于不同的攻击场景也很灵活。此外,它对许多最先进的防御技术也具有非常强烈的抵抗力。
translated by 谷歌翻译
基于深度神经网络(DNN)的智能信息(IOT)系统已被广泛部署在现实世界中。然而,发现DNNS易受对抗性示例的影响,这提高了人们对智能物联网系统的可靠性和安全性的担忧。测试和评估IOT系统的稳健性成为必要和必要。最近已经提出了各种攻击和策略,但效率问题仍未纠正。现有方法是计算地广泛或耗时,这在实践中不适用。在本文中,我们提出了一种称为攻击启发GaN(AI-GaN)的新框架,在有条件地产生对抗性实例。曾经接受过培训,可以有效地给予对抗扰动的输入图像和目标类。我们在白盒设置的不同数据集中应用AI-GaN,黑匣子设置和由最先进的防御保护的目标模型。通过广泛的实验,AI-GaN实现了高攻击成功率,优于现有方法,并显着降低了生成时间。此外,首次,AI-GaN成功地缩放到复杂的数据集。 Cifar-100和Imagenet,所有课程中的成功率约为90美元。
translated by 谷歌翻译
已知深层神经网络(DNN)容易受到后门攻击和对抗攻击的影响。在文献中,这两种攻击通常被视为明显的问题并分别解决,因为它们分别属于训练时间和推理时间攻击。但是,在本文中,我们发现它们之间有一个有趣的联系:对于具有后门种植的模型,我们观察到其对抗性示例具有与触发样品相似的行为,即都激活了同一DNN神经元的子集。这表明将后门种植到模型中会严重影响模型的对抗性例子。基于这一观察结果,我们设计了一种新的对抗性微调(AFT)算法,以防止后门攻击。我们从经验上表明,在5次最先进的后门攻击中,我们的船尾可以有效地擦除后门触发器,而无需在干净的样品上明显的性能降解,并显着优于现有的防御方法。
translated by 谷歌翻译
典型的深神经网络(DNN)后门攻击基于输入中嵌入的触发因素。现有的不可察觉的触发因素在计算上昂贵或攻击成功率低。在本文中,我们提出了一个新的后门触发器,该扳机易于生成,不可察觉和高效。新的触发器是一个均匀生成的三维(3D)二进制图案,可以水平和/或垂直重复和镜像,并将其超级贴在三通道图像上,以训练后式DNN模型。新型触发器分散在整个图像中,对单个像素产生微弱的扰动,但共同拥有强大的识别模式来训练和激活DNN的后门。我们还通过分析表明,随着图像的分辨率提高,触发因素越来越有效。实验是使用MNIST,CIFAR-10和BTSR数据集上的RESNET-18和MLP模型进行的。在无遗象的方面,新触发的表现优于现有的触发器,例如Badnet,Trojaned NN和隐藏的后门。新的触发因素达到了几乎100%的攻击成功率,仅将分类准确性降低了不到0.7%-2.4%,并使最新的防御技术无效。
translated by 谷歌翻译
深度神经网络容易受到来自对抗性投入的攻击,并且最近,特洛伊木马误解或劫持模型的决定。我们通过探索有界抗逆性示例空间和生成的对抗网络内的自然输入空间来揭示有界面的对抗性实例 - 通用自然主义侵害贴片的兴趣类 - 我们呼叫TNT。现在,一个对手可以用一个自然主义的补丁来手臂自己,不太恶意,身体上可实现,高效 - 实现高攻击成功率和普遍性。 TNT是普遍的,因为在场景中的TNT中捕获的任何输入图像都将:i)误导网络(未确定的攻击);或ii)迫使网络进行恶意决定(有针对性的攻击)。现在,有趣的是,一个对抗性补丁攻击者有可能发挥更大的控制水平 - 选择一个独立,自然的贴片的能力,与被限制为嘈杂的扰动的触发器 - 到目前为止只有可能与特洛伊木马攻击方法有可能干扰模型建设过程,以嵌入风险发现的后门;但是,仍然意识到在物理世界中部署的补丁。通过对大型视觉分类任务的广泛实验,想象成在其整个验证集50,000张图像中进行评估,我们展示了TNT的现实威胁和攻击的稳健性。我们展示了攻击的概括,以创建比现有最先进的方法实现更高攻击成功率的补丁。我们的结果表明,攻击对不同的视觉分类任务(CIFAR-10,GTSRB,PUBFIG)和多个最先进的深神经网络,如WieredEnet50,Inception-V3和VGG-16。
translated by 谷歌翻译
Existing integrity verification approaches for deep models are designed for private verification (i.e., assuming the service provider is honest, with white-box access to model parameters). However, private verification approaches do not allow model users to verify the model at run-time. Instead, they must trust the service provider, who may tamper with the verification results. In contrast, a public verification approach that considers the possibility of dishonest service providers can benefit a wider range of users. In this paper, we propose PublicCheck, a practical public integrity verification solution for services of run-time deep models. PublicCheck considers dishonest service providers, and overcomes public verification challenges of being lightweight, providing anti-counterfeiting protection, and having fingerprinting samples that appear smooth. To capture and fingerprint the inherent prediction behaviors of a run-time model, PublicCheck generates smoothly transformed and augmented encysted samples that are enclosed around the model's decision boundary while ensuring that the verification queries are indistinguishable from normal queries. PublicCheck is also applicable when knowledge of the target model is limited (e.g., with no knowledge of gradients or model parameters). A thorough evaluation of PublicCheck demonstrates the strong capability for model integrity breach detection (100% detection accuracy with less than 10 black-box API queries) against various model integrity attacks and model compression attacks. PublicCheck also demonstrates the smooth appearance, feasibility, and efficiency of generating a plethora of encysted samples for fingerprinting.
translated by 谷歌翻译
机器学习(ML)已将自身驾驶到认证系统的自主驱动范围的各种关键应用的基石。然而,随着机器学习模型的增加,已经出现了多次攻击。一类这样的攻击正在培训时间攻击,由此对手在机器学习模型培训之前或期间执行他们的攻击。在这项工作中,我们提出了一种对基于计算机视觉的机器学习模型的新培训时间攻击,即模型劫持攻击。对手旨在劫持目标模型,而不是模特所有者注意到的原始任务。模型劫持可能会导致问责制和安全风险,因为可以将劫持型号所有者构成,以便拥有其型号提供非法或不道德的服务。模型劫持攻击以与现有数据中毒攻击相同的方式启动。然而,模型劫持攻击的一个要求是隐身,即劫持目标模型的数据样本应该类似于模型的原始训练数据集。为此,我们提出了两种不同的模型劫持攻击,即Chameleon和不良变色龙,基于新颖的编码器解码器样式ML模型,即Camouflager。我们的评价表明,我们的模型劫持攻击都达到了高攻击成功率,模型实用程序下降了不计。
translated by 谷歌翻译
许多最先进的ML模型在各种任务中具有优于图像分类的人类。具有如此出色的性能,ML模型今天被广泛使用。然而,存在对抗性攻击和数据中毒攻击的真正符合ML模型的稳健性。例如,Engstrom等人。证明了最先进的图像分类器可以容易地被任意图像上的小旋转欺骗。由于ML系统越来越纳入安全性和安全敏感的应用,对抗攻击和数据中毒攻击构成了相当大的威胁。本章侧重于ML安全的两个广泛和重要的领域:对抗攻击和数据中毒攻击。
translated by 谷歌翻译
With the success of deep learning algorithms in various domains, studying adversarial attacks to secure deep models in real world applications has become an important research topic. Backdoor attacks are a form of adversarial attacks on deep networks where the attacker provides poisoned data to the victim to train the model with, and then activates the attack by showing a specific small trigger pattern at the test time. Most state-of-the-art backdoor attacks either provide mislabeled poisoning data that is possible to identify by visual inspection, reveal the trigger in the poisoned data, or use noise to hide the trigger. We propose a novel form of backdoor attack where poisoned data look natural with correct labels and also more importantly, the attacker hides the trigger in the poisoned data and keeps the trigger secret until the test time.We perform an extensive study on various image classification settings and show that our attack can fool the model by pasting the trigger at random locations on unseen images although the model performs well on clean data. We also show that our proposed attack cannot be easily defended using a state-of-the-art defense algorithm for backdoor attacks.
translated by 谷歌翻译
Vertical federated learning (VFL) is an emerging paradigm that enables collaborators to build machine learning models together in a distributed fashion. In general, these parties have a group of users in common but own different features. Existing VFL frameworks use cryptographic techniques to provide data privacy and security guarantees, leading to a line of works studying computing efficiency and fast implementation. However, the security of VFL's model remains underexplored.
translated by 谷歌翻译
目前,深度神经网络(DNN)在不同的应用中被广泛采用。尽管具有商业价值,但培训良好的DNN仍在资源消费。因此,训练有素的模型是其所有者的宝贵知识产权。但是,最近的研究揭示了模型窃取的威胁,即使他们只能查询模型,对手也可以获得受害者模型的功能相似的副本。在本文中,我们提出了一个有效且无害的模型所有权验证(移动),以防御不同类型的模型窃取,而无需引入新的安全风险。通常,我们通过验证可疑模型是否包含辩护人指定的外部特征的知识来进行所有权验证。具体而言,我们通过将一些训练样本带来样式转移来嵌入外部功能。然后,我们训练一个元分类器,以确定模型是否被受害者偷走了。这种方法的灵感来自于理解,即被盗模型应包含受害者模型学到的功能的知识。特别是,我们在白色框和黑框设置下开发了移动方法,以提供全面的模型保护。基准数据集的广泛实验验证了我们方法的有效性及其对潜在适应性攻击的抵抗力。复制我们方法的主要实验的代码可在\ url {https://github.com/thuyimingli/move}上获得。
translated by 谷歌翻译
被证明深度神经网络(DNN)被证明是易受后门攻击的影响。后门通常通过将后门触发注入训练示例中的目标DNN嵌入到目标DNN中,这可能导致目标DNN消除附加的输入附加的输入。现有的后门检测方法通常需要访问原始中毒训练数据,目标DNN的参数,或对每个给定输入的预测置信度,这在许多实际应用中是不切实际的,例如,在设备上部署的DNN。我们地址DNN是完全黑盒的黑匣子硬标签检测问题,只能访问其最终输出标签。我们从优化角度方面接近这个问题,并表明回程检测的目标受到对抗目标的界定。进一步的理论和实证研究表明,这种对抗性物镜导致具有高度偏斜分布的溶液;在后门感染的例子的对抗性地图中经常观察到奇点,我们称之为对抗性奇点现象。基于该观察,我们提出了对抗极值分析(AEVA)来检测黑匣子神经网络中的后门。 AEVA基于来自Monte-Carlo梯度估计计算的对抗地图的极值分析。在多个流行的任务和后门攻击中通过广泛的实验证明,我们的方法有效地检测了黑匣子硬标的场景下的后门攻击。
translated by 谷歌翻译