智能论文笔记

CASSOCK: Viable Backdoor Attacks against DNN in The Wall of Source-Specific Backdoor Defences

Shang Wang , Yansong Gao , Anmin Fu , Zhi Zhang , Yuqing Zhang , Willy Susilo , Dongxi Liu

分类：机器学习

2022-05-31

As a critical threat to deep neural networks (DNNs), backdoor attacks can be categorized into two types, i.e., source-agnostic backdoor attacks (SABAs) and source-specific backdoor attacks (SSBAs). Compared to traditional SABAs, SSBAs are more advanced in that they have superior stealthier in bypassing mainstream countermeasures that are effective against SABAs. Nonetheless, existing SSBAs suffer from two major limitations. First, they can hardly achieve a good trade-off between ASR (attack success rate) and FPR (false positive rate). Besides, they can be effectively detected by the state-of-the-art (SOTA) countermeasures (e.g., SCAn). To address the limitations above, we propose a new class of viable source-specific backdoor attacks, coined as CASSOCK. Our key insight is that trigger designs when creating poisoned data and cover data in SSBAs play a crucial role in demonstrating a viable source-specific attack, which has not been considered by existing SSBAs. With this insight, we focus on trigger transparency and content when crafting triggers for poisoned dataset where a sample has an attacker-targeted label and cover dataset where a sample has a ground-truth label. Specifically, we implement $CASSOCK_{Trans}$ and $CASSOCK_{Cont}$. While both they are orthogonal, they are complementary to each other, generating a more powerful attack, called $CASSOCK_{Comp}$, with further improved attack performance and stealthiness. We perform a comprehensive evaluation of the three $CASSOCK$-based attacks on four popular datasets and three SOTA defenses. Compared with a representative SSBA as a baseline ($SSBA_{Base}$), $CASSOCK$-based attacks have significantly advanced the attack performance, i.e., higher ASR and lower FPR with comparable CDA (clean data accuracy). Besides, $CASSOCK$-based attacks have effectively bypassed the SOTA defenses, and $SSBA_{Base}$ cannot.

translated by 谷歌翻译

NTD: Non-Transferability Enabled Backdoor Detection

Yinshan Li , Hua Ma , Zhi Zhang , Yansong Gao , Alsharif Abuadbba , Anmin Fu , Yifeng Zheng , Said F. Al-Sarawi , Derek Abbott

分类：人工智能 | 机器学习

2021-11-22

后门深度学习（DL）模型的行为通常在清洁输入上，但在触发器输入时不端行为，因为后门攻击者希望为DL模型部署构成严重后果。最先进的防御是限于特定的后门攻击（源无关攻击）或在该机器学习（ML）专业知识或昂贵的计算资源中不适用于源友好的攻击。这项工作观察到所有现有的后门攻击都具有不可避免的内在弱点，不可转换性，即触发器输入劫持劫持模型，但不能对另一个尚未植入同一后门的模型有效。通过此密钥观察，我们提出了不可转换性的反向检测（NTD）来识别运行时在运行时的模型欠测试（MUT）的触发输入。特定，NTD允许潜在的回溯静电预测输入的类别。同时，NTD利用特征提取器（FE）来提取输入的特征向量，并且从其预测类随机拾取的一组样本，然后比较FE潜在空间中的输入和样本之间的相似性。如果相似性低，则输入是对逆势触发输入;否则，良性。 FE是一个免费的预训练模型，私下从开放平台保留。随着FE和MUT来自不同来源，攻击者非常不可能将相同的后门插入其中两者。由于不可转换性，不能将突变处工作的触发效果转移到FE，使NTD对不同类型的后门攻击有效。我们在三个流行的定制任务中评估NTD，如面部识别，交通标志识别和一般动物分类，结果确认NDT具有高效率（低假验收率）和具有低检测延迟的可用性（低误报率）。

translated by 谷歌翻译

Confidence Matters: Inspecting Backdoors in Deep Neural Networks via Distribution Transfer

Tong Wang , Yuan Yao , Feng Xu , Miao Xu , Shengwei An , Ting Wang

分类：计算机视觉

2022-08-13

后门攻击已被证明是对深度学习模型的严重安全威胁，并且检测给定模型是否已成为后门成为至关重要的任务。现有的防御措施主要建立在观察到后门触发器通常尺寸很小或仅影响几个神经元激活的观察结果。但是，在许多情况下，尤其是对于高级后门攻击，违反了上述观察结果，阻碍了现有防御的性能和适用性。在本文中，我们提出了基于新观察的后门防御范围。也就是说，有效的后门攻击通常需要对中毒训练样本的高预测置信度，以确保训练有素的模型具有很高的可能性。基于此观察结果，Dtinspector首先学习一个可以改变最高信心数据的预测的补丁，然后通过检查在低信心数据上应用学习补丁后检查预测变化的比率来决定后门的存在。对五次后门攻击，四个数据集和三种高级攻击类型的广泛评估证明了拟议防御的有效性。

translated by 谷歌翻译

STRIP: A Defence Against Trojan Attacks on Deep Neural Networks

Yansong Gao , Chang Xu , Derui Wang , Shiping Chen , Damith C. Ranasinghe , Surya Nepal

分类：

2019-02-18

A recent trojan attack on deep neural network (DNN) models is one insidious variant of data poisoning attacks. Trojan attacks exploit an effective backdoor created in a DNN model by leveraging the difficulty in interpretability of the learned model to misclassify any inputs signed with the attacker's chosen trojan trigger. Since the trojan trigger is a secret guarded and exploited by the attacker, detecting such trojan inputs is a challenge, especially at run-time when models are in active operation. This work builds STRong Intentional Perturbation (STRIP) based run-time trojan attack detection system and focuses on vision system. We intentionally perturb the incoming input, for instance by superimposing various image patterns, and observe the randomness of predicted classes for perturbed inputs from a given deployed model-malicious or benign. A low entropy in predicted classes violates the input-dependence property of a benign model and implies the presence of a malicious input-a characteristic of a trojaned input. The high efficacy of our method is validated through case studies on three popular and contrasting datasets: MNIST, CIFAR10 and GTSRB. We achieve an overall false acceptance rate (FAR) of less than 1%, given a preset false rejection rate (FRR) of 1%, for different types of triggers. Using CIFAR10 and GTSRB, we have empirically achieved result of 0% for both FRR and FAR. We have also evaluated STRIP robustness against a number of trojan attack variants and adaptive attacks.

translated by 谷歌翻译

The "Beatrix'' Resurrections: Robust Backdoor Detection via Gram Matrices

Wanlun Ma , Derui Wang , Ruoxi Sun , Minhui Xue , Sheng Wen , Yang Xiang

分类：人工智能

2022-09-23

深度神经网络（DNNS）在训练过程中容易受到后门攻击的影响。该模型以这种方式损坏正常起作用，但是当输入中的某些模式触发时，会产生预定义的目标标签。现有防御通常依赖于通用后门设置的假设，其中有毒样品共享相同的均匀扳机。但是，最近的高级后门攻击表明，这种假设在动态后门中不再有效，在动态后门中，触发者因输入而异，从而击败了现有的防御。在这项工作中，我们提出了一种新颖的技术BEATRIX（通过革兰氏矩阵检测）。 BEATRIX利用革兰氏矩阵不仅捕获特征相关性，还可以捕获表示形式的适当高阶信息。通过从正常样本的激活模式中学习类条件统计，BEATRIX可以通过捕获激活模式中的异常来识别中毒样品。为了进一步提高识别目标标签的性能，BEATRIX利用基于内核的测试，而无需对表示分布进行任何先前的假设。我们通过与最先进的防御技术进行了广泛的评估和比较来证明我们的方法的有效性。实验结果表明，我们的方法在检测动态后门时达到了91.1％的F1得分，而最新技术只能达到36.9％。

translated by 谷歌翻译

Backdoor Attacks Against Dataset Distillation

Yugeng Liu , Zheng Li , Michael Backes , Yun Shen , Yang Zhang

分类：机器学习

2023-01-03

Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.

translated by 谷歌翻译

An Overview of Backdoor Attacks Against Deep Neural Networks and Possible Defences

Wei Guo , Benedetta Tondi , Mauro Barni

分类：计算机视觉

2021-11-16

与令人印象深刻的进步触动了我们社会的各个方面，基于深度神经网络（DNN）的AI技术正在带来越来越多的安全问题。虽然在考试时间运行的攻击垄断了研究人员的初始关注，但是通过干扰培训过程来利用破坏DNN模型的可能性，代表了破坏训练过程的可能性，这是破坏AI技术的可靠性的进一步严重威胁。在后门攻击中，攻击者损坏了培训数据，以便在测试时间诱导错误的行为。然而，测试时间误差仅在存在与正确制作的输入样本对应的触发事件的情况下被激活。通过这种方式，损坏的网络继续正常输入的预期工作，并且只有当攻击者决定激活网络内隐藏的后门时，才会发生恶意行为。在过去几年中，后门攻击一直是强烈的研究活动的主题，重点是新的攻击阶段的发展，以及可能对策的提议。此概述文件的目标是审查发表的作品，直到现在，分类到目前为止提出的不同类型的攻击和防御。指导分析的分类基于攻击者对培训过程的控制量，以及防御者验证用于培训的数据的完整性，并监控DNN在培训和测试中的操作时间。因此，拟议的分析特别适合于参考他们在运营的应用方案的攻击和防御的强度和弱点。

translated by 谷歌翻译

Poison Ink: Robust and Invisible Backdoor Attack

Jie Zhang , Dongdong Chen , Qidong Huang , Jing Liao , Weiming Zhang , Huamin Feng , Gang Hua , Nenghai Yu

分类：计算机视觉

2021-08-05

最近的研究表明，深层神经网络容易受到不同类型的攻击，例如对抗性攻击，数据中毒攻击和后门攻击。其中，后门攻击是最狡猾的攻击，几乎可以在深度学习管道的每个阶段发生。因此，后门攻击吸引了学术界和行业的许多兴趣。但是，大多数现有的后门攻击方法对于某些轻松的预处理（例如常见数据转换）都是可见的或脆弱的。为了解决这些限制，我们提出了一种强大而无形的后门攻击，称为“毒药”。具体而言，我们首先利用图像结构作为目标中毒区域，并用毒药（信息）填充它们以生成触发图案。由于图像结构可以在数据转换期间保持其语义含义，因此这种触发模式对数据转换本质上是强大的。然后，我们利用深度注射网络将这种触发模式嵌入封面图像中，以达到隐身性。与现有流行的后门攻击方法相比，毒药的墨水在隐形和健壮性方面都优于表现。通过广泛的实验，我们证明了毒药不仅是不同数据集和网络体系结构的一般性，而且对于不同的攻击场景也很灵活。此外，它对许多最先进的防御技术也具有非常强烈的抵抗力。

translated by 谷歌翻译

Backdoor Attack through Frequency Domain

Tong Wang , Yuan Yao , Feng Xu , Shengwei An , Ting Wang

分类：人工智能 | 计算机视觉

2021-11-22

后门攻击已被证明是对深度学习系统的严重威胁，如生物识别认证和自主驾驶。有效的后门攻击可以在某些预定义条件下执行模型行为，即，触发器，但否则正常表现。然而，现有攻击的触发器直接注入像素空间，这往往可通过现有的防御和在训练和推理阶段进行视觉识别。在本文中，我们通过Trojaning频域提出了一个新的后门攻击ftrojan。关键的直觉是频域中的触发扰动对应于分散整个图像的小像素明智的扰动，打破了现有防御的底层假设，并使中毒图像从清洁的假设可视地无法区分。我们在几个数据集和任务中评估ftrojan，表明它实现了高攻击成功率，而不会显着降低良性输入的预测准确性。此外，中毒图像几乎看不见并保持高感性的质量。我们还评估FTROJAN，以防止最先进的防御以及在频域中设计的若干自适应防御。结果表明，FTROJAN可以强大地避开或显着降解这些防御的性能。

translated by 谷歌翻译

MACAB: Model-Agnostic Clean-Annotation Backdoor to Object Detection with Natural Trigger in Real-World

Hua Ma , Yinshan Li , Yansong Gao , Zhi Zhang , Alsharif Abuadbba , Anmin Fu , Said F. Al-Sarawi , Nepal Surya , Derek Abbott

分类：计算机视觉

2022-09-06

对象检测是各种关键计算机视觉任务的基础，例如分割，对象跟踪和事件检测。要以令人满意的精度训练对象探测器，需要大量数据。但是，由于注释大型数据集涉及大量劳动力，这种数据策展任务通常被外包给第三方或依靠志愿者。这项工作揭示了此类数据策展管道的严重脆弱性。我们提出MACAB，即使数据策展人可以手动审核图像，也可以将干净的图像制作清洁的图像将后门浸入对象探测器中。我们观察到，当后门被不明确的天然物理触发器激活时，在野外实现了错误分类和披肩的后门效应。与带有清洁标签的现有图像分类任务相比，带有清洁通道的非分类对象检测具有挑战性，这是由于每个帧内有多个对象的复杂性，包括受害者和非视野性对象。通过建设性地滥用深度学习框架使用的图像尺度函数，II结合了所提出的对抗性清洁图像复制技术，以及在考虑到毒品数据选择标准的情况下，通过建设性地滥用图像尺度尺度，可以确保MACAB的功效。广泛的实验表明，在各种现实世界中，MacAB在90％的攻击成功率中表现出超过90％的攻击成功率。这包括披肩和错误分类后门效应，甚至限制了较小的攻击预算。最先进的检测技术无法有效地识别中毒样品。全面的视频演示位于https://youtu.be/ma7l_lpxkp4上，该演示基于yolov4倒置的毒药率为0.14％，yolov4 clokaking后门和更快的速度R-CNN错误分类后门。

translated by 谷歌翻译

Test-Time Detection of Backdoor Triggers for Poisoned Deep Neural Networks

Xi Li , Zhen Xiang , David J. Miller , George Kesidis

分类：机器学习

2021-12-06

后门（特洛伊木马）攻击正在对深度神经网络（DNN）产生威胁。每当来自任何源类的测试样本都嵌入后门图案时，DNN被攻击将预测到攻击者期望的目标类;在正确分类干净（无攻击）测试样本时。现有的后门防御在检测到DNN是攻击和逆向工程的“培训后”制度的反向工程方面取得了成功：防御者可以访问要检查的DNN和独立收集的小型清洁数据集，但是无法访问DNN的（可能中毒）培训集。然而，这些防御既不触发后门映射的行为也不抓住罪魁祸首，也不是在试验时间下减轻后门攻击。在本文中，我们提出了一个“飞行中的”防范反向攻击对图像分类的攻击，其中1）检测在试验时间时使用后门触发的使用; 2）Infers为检测到的触发器示例中的原始原点（源类）。我们防御的有效性是针对不同强大的后门攻击实验证明的。

translated by 谷歌翻译

Just Rotate it: Deploying Backdoor Attacks via Rotation Transformation

Tong Wu , Tianhao Wang , Vikash Sehwag , Saeed Mahloujifar , Prateek Mittal

分类：计算机视觉 | 机器学习

2022-07-22

最近的作品表明，深度学习模型容易受到后门中毒攻击的影响，在这些攻击中，这些攻击灌输了与外部触发模式或物体（例如贴纸，太阳镜等）的虚假相关性。我们发现这种外部触发信号是不必要的，因为可以使用基于旋转的图像转换轻松插入高效的后门。我们的方法通过旋转有限数量的对象并将其标记错误来构建中毒数据集；一旦接受过培训，受害者的模型将在运行时间推理期间做出不良的预测。它表现出明显的攻击成功率，同时通过有关图像分类和对象检测任务的全面实证研究来保持清洁绩效。此外，我们评估了标准数据增强技术和针对我们的攻击的四种不同的后门防御措施，发现它们都无法作为一致的缓解方法。正如我们在图像分类和对象检测应用程序中所示，我们的攻击只能在现实世界中轻松部署在现实世界中。总体而言，我们的工作突出了一个新的，简单的，物理上可实现的，高效的矢量，用于后门攻击。我们的视频演示可在https://youtu.be/6jif8wnx34m上找到。

translated by 谷歌翻译

Hijack Vertical Federated Learning Models with Adversarial Embedding

Pengyu Qiu , Xuhong Zhang , Shouling Ji , Changjiang Li , Yuwen Pu , Xing Yang , Ting Wang

分类：机器学习 | 人工智能

2022-12-01

Vertical federated learning (VFL) is an emerging paradigm that enables collaborators to build machine learning models together in a distributed fashion. In general, these parties have a group of users in common but own different features. Existing VFL frameworks use cryptographic techniques to provide data privacy and security guarantees, leading to a line of works studying computing efficiency and fast implementation. However, the security of VFL's model remains underexplored.

translated by 谷歌翻译

TnT Attacks! Universal Naturalistic Adversarial Patches Against Deep Neural Network Systems

Bao Gia Doan , Minhui Xue , Shiqing Ma , Ehsan Abbasnejad , Damith C. Ranasinghe

分类：计算机视觉

2021-11-19

深度神经网络容易受到来自对抗性投入的攻击，并且最近，特洛伊木马误解或劫持模型的决定。我们通过探索有界抗逆性示例空间和生成的对抗网络内的自然输入空间来揭示有界面的对抗性实例 - 通用自然主义侵害贴片的兴趣类 - 我们呼叫TNT。现在，一个对手可以用一个自然主义的补丁来手臂自己，不太恶意，身体上可实现，高效 - 实现高攻击成功率和普遍性。 TNT是普遍的，因为在场景中的TNT中捕获的任何输入图像都将：i）误导网络（未确定的攻击）;或ii）迫使网络进行恶意决定（有针对性的攻击）。现在，有趣的是，一个对抗性补丁攻击者有可能发挥更大的控制水平 - 选择一个独立，自然的贴片的能力，与被限制为嘈杂的扰动的触发器 - 到目前为止只有可能与特洛伊木马攻击方法有可能干扰模型建设过程，以嵌入风险发现的后门;但是，仍然意识到在物理世界中部署的补丁。通过对大型视觉分类任务的广泛实验，想象成在其整个验证集50,000张图像中进行评估，我们展示了TNT的现实威胁和攻击的稳健性。我们展示了攻击的概括，以创建比现有最先进的方法实现更高攻击成功率的补丁。我们的结果表明，攻击对不同的视觉分类任务（CIFAR-10，GTSRB，PUBFIG）和多个最先进的深神经网络，如WieredEnet50，Inception-V3和VGG-16。

translated by 谷歌翻译

Can We Mitigate Backdoor Attack Using Adversarial Detection Methods?

Kaidi Jin , Tianwei Zhang , Chao Shen , Yufei Chen , Ming Fan , Chenhao Lin , Ting Liu

分类：机器学习 | (统计)机器学习

2020-06-26

深度神经网络众所周知，很容易受到对抗性攻击和后门攻击的影响，在该攻击中，对输入的微小修改能够误导模型以给出错误的结果。尽管已经广泛研究了针对对抗性攻击的防御措施，但有关减轻后门攻击的调查仍处于早期阶段。尚不清楚防御这两次攻击之间是否存在任何连接和共同特征。我们对对抗性示例与深神网络的后门示例之间的联系进行了全面的研究，以寻求回答以下问题：我们可以使用对抗检测方法检测后门。我们的见解是基于这样的观察结果，即在推理过程中，对抗性示例和后门示例都有异常，与良性样本高度区分。结果，我们修改了四种现有的对抗防御方法来检测后门示例。广泛的评估表明，这些方法可靠地防止后门攻击，其准确性比检测对抗性实例更高。这些解决方案还揭示了模型灵敏度，激活空间和特征空间中对抗性示例，后门示例和正常样本的关系。这能够增强我们对这两次攻击和防御机会的固有特征的理解。

translated by 谷歌翻译

Dispersed Pixel Perturbation-based Imperceptible Backdoor Trigger for Image Classifier Models

Yulong Wang , Minghui Zhao , Shenghong Li , Xin Yuan , Wei Ni

分类：计算机视觉 | 人工智能

2022-08-19

典型的深神经网络（DNN）后门攻击基于输入中嵌入的触发因素。现有的不可察觉的触发因素在计算上昂贵或攻击成功率低。在本文中，我们提出了一个新的后门触发器，该扳机易于生成，不可察觉和高效。新的触发器是一个均匀生成的三维（3D）二进制图案，可以水平和/或垂直重复和镜像，并将其超级贴在三通道图像上，以训练后式DNN模型。新型触发器分散在整个图像中，对单个像素产生微弱的扰动，但共同拥有强大的识别模式来训练和激活DNN的后门。我们还通过分析表明，随着图像的分辨率提高，触发因素越来越有效。实验是使用MNIST，CIFAR-10和BTSR数据集上的RESNET-18和MLP模型进行的。在无遗象的方面，新触发的表现优于现有的触发器，例如Badnet，Trojaned NN和隐藏的后门。新的触发因素达到了几乎100％的攻击成功率，仅将分类准确性降低了不到0.7％-2.4％，并使最新的防御技术无效。

translated by 谷歌翻译

Backdoor Attacks on Time Series: A Generative Approach

Yujing Jiang , Xingjun Ma , Sarah Monazam Erfani , James Bailey

分类：机器学习

2022-11-15

Backdoor attacks have emerged as one of the major security threats to deep learning models as they can easily control the model's test-time predictions by pre-injecting a backdoor trigger into the model at training time. While backdoor attacks have been extensively studied on images, few works have investigated the threat of backdoor attacks on time series data. To fill this gap, in this paper we present a novel generative approach for time series backdoor attacks against deep learning based time series classifiers. Backdoor attacks have two main goals: high stealthiness and high attack success rate. We find that, compared to images, it can be more challenging to achieve the two goals on time series. This is because time series have fewer input dimensions and lower degrees of freedom, making it hard to achieve a high attack success rate without compromising stealthiness. Our generative approach addresses this challenge by generating trigger patterns that are as realistic as real-time series patterns while achieving a high attack success rate without causing a significant drop in clean accuracy. We also show that our proposed attack is resistant to potential backdoor defenses. Furthermore, we propose a novel universal generator that can poison any type of time series with a single generator that allows universal attacks without the need to fine-tune the generative model for new time series datasets.

translated by 谷歌翻译

Physical Backdoor Attacks to Lane Detection Systems in Autonomous Driving

Xingshuo Han , Guowen Xu , Yuan Zhou , Xuehuan Yang , Jiwei Li , Tianwei Zhang

分类：计算机视觉

2022-03-02

现代自动驾驶汽车采用最先进的DNN模型来解释传感器数据并感知环境。但是，DNN模型容易受到不同类型的对抗攻击的影响，这对车辆和乘客的安全性和安全性构成了重大风险。一个突出的威胁是后门攻击，对手可以通过中毒训练样本来妥协DNN模型。尽管已经大量精力致力于调查后门攻击对传统的计算机视觉任务，但很少探索其对自主驾驶场景的实用性和适用性，尤其是在物理世界中。在本文中，我们针对车道检测系统，该系统是许多自动驾驶任务，例如导航，车道切换的必不可少的模块。我们设计并实现了对此类系统的第一次物理后门攻击。我们的攻击是针对不同类型的车道检测算法的全面有效的。具体而言，我们引入了两种攻击方法（毒药和清洁量）来生成中毒样本。使用这些样品，训练有素的车道检测模型将被后门感染，并且可以通过公共物体（例如，交通锥）进行启动，以进行错误的检测，导致车辆从道路上或在相反的车道上行驶。对公共数据集和物理自动驾驶汽车的广泛评估表明，我们的后门攻击对各种防御解决方案都是有效，隐秘和强大的。我们的代码和实验视频可以在https://sites.google.com/view/lane-detection-attack/lda中找到。

translated by 谷歌翻译

Towards Effective and Robust Neural Trojan Defenses via Input Filtering

Kien Do , Haripriya Harikumar , Hung Le , Dung Nguyen , Truyen Tran , Santu Rana , Dang Nguyen , Willy Susilo , Svetha Venkatesh

分类：人工智能 | 计算机视觉 | 机器学习

2022-02-24

特洛伊木马对深度神经网络的攻击既危险又秘密。在过去的几年中，特洛伊木马的攻击从仅使用单个输入 - 不知不线的触发器和仅针对一个类别使用多个输入特异性触发器和定位多个类的类别。但是，特洛伊木马的防御尚未赶上这一发展。大多数防御方法仍然使对特洛伊木马触发器和目标类别的假设不足，因此，现代特洛伊木马的攻击很容易被规避。为了解决这个问题，我们提出了两种新颖的“过滤”防御措施，称为变分输入过滤（VIF）和对抗输入过滤（AIF），它们分别利用有损数据压缩和对抗性学习，以有效地纯化潜在的Trojan触发器，而无需在运行时间内触发潜在的Trojan触发器。对触发器/目标类的数量或触发器的输入依赖性属性做出假设。此外，我们还引入了一种称为“过滤 - 对抗性”（FTC）的新防御机制，该机制有助于避免通过“过滤”引起的清洁数据的分类准确性下降，并将其与VIF/AIF结合起来，从种类。广泛的实验结果和消融研究表明，我们提议的防御能力在减轻五次高级特洛伊木马攻击方面显着优于众所周知的基线防御能力，包括最近的两次最新一次，同时对少量训练数据和大型触发器非常强大。

translated by 谷歌翻译

Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain

Chang Yue , Peizhuo Lv , Ruigang Liang , Kai Chen

分类：机器学习

2022-07-09

随着深度神经网络（DNN）的广泛应用，后门攻击逐渐引起了人们的关注。后门攻击是阴险的，中毒模型在良性样本上的表现良好，只有在给定特定输入时才会触发，这会导致神经网络产生不正确的输出。最先进的后门攻击工作是通过数据中毒（即攻击者注入中毒样品中的数据集中）实施的，并且用该数据集训练的模型被后门感染。但是，当前研究中使用的大多数触发因素都是在一小部分图像上修补的固定图案，并且经常被明显错误地标记，这很容易被人类或防御方法（例如神经清洁和前哨）检测到。同样，DNN很难在没有标记的情况下学习，因为它们可能会忽略小图案。在本文中，我们提出了一种基于频域的广义后门攻击方法，该方法可以实现后门植入而不会错标和访问训练过程。它是人类看不见的，能够逃避常用的防御方法。我们在三个数据集（CIFAR-10，STL-10和GTSRB）的无标签和清洁标签案例中评估了我们的方法。结果表明，我们的方法可以在所有任务上实现高攻击成功率（高于90％），而不会在主要任务上进行大量绩效降解。此外，我们评估了我们的方法的旁路性能，以进行各种防御措施，包括检测训练数据（即激活聚类），输入的预处理（即过滤），检测输入（即Sentinet）和检测模型（即神经清洁）。实验结果表明，我们的方法对这种防御能力表现出极好的鲁棒性。

translated by 谷歌翻译