智能论文笔记

A Unified Framework for Adversarial Attack and Defense in Constrained Feature Space

Thibault Simonetto , Salijona Dyrmishi , Salah Ghamizi , Maxime Cordy , Yves Le Traon

分类：人工智能 | 机器学习

2021-12-02

可行对抗示例的产生对于适当评估适用于受约束特征空间的模型是必要的。但是，它仍然是一个具有挑战性的任务，以强制执行用于计算机愿景的攻击。我们提出了一个统一的框架，以产生满足给定域约束的可行的对抗性示例。我们的框架支持文献中报告的使用情况，可以处理线性和非线性约束。我们将框架实例化为两种算法：基于梯度的攻击，引入损耗函数中的约束，以最大化，以及旨在错误分类，扰动最小化和约束满足的多目标搜索算法。我们展示我们的方法在不同域的两个数据集上有效，成功率高达100％，其中最先进的攻击无法生成单个可行的示例。除了对抗性再培训之外，我们还提出引入工程化的非凸起约束，以改善模型对抗性鲁棒性。我们证明这一新防御与对抗性再次一样有效。我们的框架构成了对受约束的对抗性攻击研究的起点，并提供了未来的研究可以利用的相关基线和数据集。

translated by 谷歌翻译