选自towardsdatascience作者:AlexAdam机器之心编译参与:LuoSainan、一鸣很多人都大概了解对抗样本是什么:在数据中加入人眼不可察觉的扰动,使得模型对数据的标签预测发生混淆和错误。但是,这句话背后的技术细节是什么?怎样才能确保生成的对抗样本符合这样的定义?本文深入解析了对抗样本背后的数学定义,并帮助读者重新理解对抗样本的定义。对抗样本是各种机器学习系统需要克服的一大障碍。对抗样本的存在表明模型倾向于依赖不可靠的特征来最大化性能,如果特征受到干扰,那么将造成模型误分类,可能导致灾难性的后果。对抗样本的非正式定义:以人类不可感知的方式对输入进行修改,使得修改后的输入能够被机器学习系统误分类,尽管原始输入是被正确分类的。这一修改后的输入即被称为对抗样本。下图阐明了这一概念:原始图像(左图),对抗噪声(中图),扰动后的图片即对抗样本(右图)被错误地分类为数字2对抗样本的正式定义如下所示:对抗样本的定义其中L是我们试图最大化的损失函数,x_orig是原始图像,是扰动,y是真实标签,所选的ε用于确保扰动后的图像看上去没有那么杂乱,并且对于人类来说仍然像是原始类别的图片。一些攻击,如FGS,IGS和PGD都使用L-∞范数来约束扰动图像和原始图像之间的距离。在这篇文章中,我们将探讨对于MNIST数据集选择ε的难点。我们也将看看最近有关不依赖于在原始图像上进行扰动而生成对抗样本的技术,探究这样生成的图片是否满足对抗样本的定义。MNIST图像距离分析让我们首先简单分析一下相同类别图像以及不同类别图像之间的平均距离。也许这些距离能够帮助我们以一种更量化更客观的方式选择ε。我博客上有一个包含这一分析的Jupyternotebook(
转载请注明:http://www.aierlanlan.com/rzgz/9027.html