百度PaddlePaddle开源对抗样本工具包Advbox，守护AI安全

作者：ys2011一号_139 | 来源：互联网 | 2023-07-31 16:07

对抗样本是一个顽固的问题，研究如何克服它们可以帮助我们避免潜在的安全问题，并且会让深度学习算法对所要解决的问题有一个更准确的了解。百度安全实验室为Pad

对抗样本是一个顽固的问题&＃xff0c;研究如何克服它们可以帮助我们避免潜在的安全问题&＃xff0c;并且会让深度学习算法对所要解决的问题有一个更准确的了解。百度安全实验室为PaddlePaddle平台贡献了对抗样本工具包Advbox&＃xff0c;便于平台的开发者、使用者更好地发现和降低模型健壮性的风险敞口&＃xff0c;守护AI安全。

1.背景

2014年&＃xff0c;科学家 Szegedy 发表了一篇论文&＃xff1a;《intriguing properties of neural networks》&＃xff0c;在论文中&＃xff0c;研究者首先提出来了“对抗样本”的概念&＃xff0c;这种对抗样本扮演攻击的角色、试图用来引发模型出错。攻击者可以在正常数据输入的基础上精心构造足够小的扰动&＃xff0c;生成对抗样本。对抗样本在难以被肉眼或者常用统计方法所检测到的同时&＃xff0c;能够导致AI模型以较高的置信度输出错误的分类(non-targeted attack)&＃xff0c;或者错误分类为攻击者指定的目标类别(targeted attack)。

对抗样本的存在&＃xff0c;将威胁深度神经网络在实际业务和物理场景中的应用。举两个例子&＃xff1a;

熊猫和长臂猿

左图被神经网络以60%的置信度将它识别为“熊猫”&＃xff0c;然后给它人为叠加上中图所示微小的扰动&＃xff08;实际叠加权重只有0.7%&＃xff09;&＃xff0c;得到右图。在人类看来&＃xff0c;几乎没有什么变化&＃xff0c;但人工智能却以99.3%的置信度识别为“长臂猿”。

山地车和蟑螂

正常情况下&＃xff0c;inception v3[1]模型将上左侧图片识别山地车&＃xff08;上右&＃xff09;&＃xff0c;通过加入肉眼无法区分的扰动构成对抗样本&＃xff08;下左侧的图片&＃xff09;&＃xff0c;被inception v3模型以高置信度识别成蟑螂&＃xff08;下左&＃xff09;。

对抗样本在多种机器学习、深度学习模型中广泛存在。并且对抗样本存在显著的迁移特性&＃xff0c;即同一模型&＃xff08;白盒&＃xff09;的不同实例间&＃xff08;不同的超参数&＃xff09;可以使用对抗样本进行迁移&＃xff0c;不同模型&＃xff08;黑盒&＃xff09;间同样能够被对抗样本迁移攻击。对抗样本存在潜在危险性。比如&＃xff0c;攻击者可能会用贴纸或者一幅画做一个对抗式「停止&＃xff08;stop&＃xff09;」交通标志&＃xff0c;将攻击对象瞄准自动驾驶汽车&＃xff0c;这样&＃xff0c;车辆就可能将这一「标志」解释为「放弃」或其他标识&＃xff0c;进而引发危险。

为了防卫对抗样本&＃xff0c;保证人工智能安全&＃xff0c;以及利用生成的对抗样本加固模型&＃xff0c;目前主流的深度学习平台均提供了对抗样本生成的工具包。百度安全实验室为PaddlePaddle贡献了对抗样本工具包Advbox&＃xff0c;相较于其他深度学习平台对抗样本生成的工具包&＃xff0c;Advbox在代码结构、易用性和参数调优上都更有优势。目前Advbox已经在github[2]上随PaddlePaddle一起开源&＃xff0c;Advbox对抗样本工具包能够为研究者深入开展研究提供极大的便利&＃xff0c;研究者和开发者可以高效地使用最新的生成方法构造对抗样本数据集用于对抗样本的特征统计、攻击全新的AI应用抑或是加固业务AI模型。

2.Advbox 工具包

Advbox的目的

作为测试深度学习模型抵御对抗样本的健壮性基准。
通过生成的对抗样本加固现有的模型&＃xff08;对抗训练&＃xff09;。
作为对抗样本研究的工具包。

Advbox的核心功能

Advbox主要分成以下几个模块&＃xff1a;

Attack&＃xff1a;attack class定义了攻击方法的接口&＃xff0c;后面所有攻击方法都继承Attack基类&＃xff0c;实现相应的接口。
Model&＃xff1a;model class表示深度学习的模型&＃xff0c;定义了模型相关的接口。
Adversary&＃xff1a;adversary class包含初始图像&＃xff0c;以及生成的untargeted或者targeted对抗样本。

3.Advbox相关算法介绍

目前Advbox支持FGSM&＃xff0c;BIM&＃xff0c;JSMA和DeepFool等方法&＃xff0c;后续将会有更多的攻击方法&＃xff08;如L-BFGS[10], Carlini/Wagner[11]&＃xff09;加入。

FGSM算法

FGSM由Goodfellow等研究者于2015年提出&＃xff0c;他们试图从AI模型的线性角度解释对抗样本存在的原因。假设线性模型权重参数为w&＃xff0c;输入为n&＃xff0c;扰动为&＃xff0c;则新的输出为。这样一来&＃xff0c;激活函数输入就相较原始输入增加了。如果权重w的量级为m&＃xff0c;其维度为n&＃xff0c;扰动最大值为ε&＃xff0c;那么对抗样本对激活函数造成的影响即为&＃xff0c;随着维度n的增加&＃xff0c;扰动给激活函数输入带来的增量也相应增大&＃xff0c;最终将会改变激活函数的输出值。

作者认为目前大部分深度神经网络的激活函数都采用ReLU而不再是sigmoid函数&＃xff0c;越来越多的线性被引入导致了对抗样本的存在。基于这一假设&＃xff0c;作者提出了FGSM用于生成对抗样本&＃xff0c;采用Linfinity作为范数约束&＃xff0c;对于非指定目标攻击&＃xff0c;其构造目标函数为&＃xff1b;对于指定目标攻击&＃xff0c;目标函数变化为。直观上来看&＃xff0c;损失函数对于输入x的梯度是损失函数变化最快的方向。在非指定目标攻击场景下&＃xff0c;沿着梯度方向增加像素值将会使得原始类别标签的损失值增大&＃xff0c;从而降低模型判定对抗样本为原始类别的概率&＃xff1b;在指定目标攻击场景下&＃xff0c;沿着梯度相反方向增加像素值将会使得指定目标类别标签的损失值减小&＃xff0c;从而增加模型判定对抗样本为指定目标类别的概率。

同时在论文中&＃xff0c;作者还首次揭示了对抗样本的分布特征&＃xff0c;即对抗样本往往存在于模型决策边界的附近&＃xff0c;在线性搜索范围内&＃xff0c;模型的正常分类区域和被对抗样本攻击的区域都仅占分布范围的较小一部分&＃xff0c;剩余部分为垃圾类别(rubbish class)&＃xff0c;如图2-1所示。

图2-1 对抗样本的分布

左图展示了在一张输入样本上变化ε&＃xff0c;mnist10个类别每个类别对应softmax层参数的变化。这张图片的正确类别是4。右图是生成曲线的输入&＃xff0c;黄色框中表明了正确分类的输入&＃xff0c;黄色框左上角对应负ε&＃xff0c;右下角对应正ε。每个类别对应的非规范化的对数概率明显与ε分段线性相关&＃xff0c;而且在广泛的ε范围内错误的分类比较稳定。

BIM算法

2017年Google Brain的Kurakin等研究者在FGSM的基础上提出了BIM用于快速生成对抗样本。BIM实际上是一个迭代版的FGSM&＃xff0c;同样采用Linfinity作为范数约束。

对于非指定目标攻击&＃xff0c;作者在每次迭代中使用FGSM生成对抗样本&＃xff0c;并加入clip函数用于图片归一化的值域回归&＃xff0c;即&＃xff1a;

对于指定目标攻击&＃xff0c;作者在迭代中采用类似的方法&＃xff0c;即&＃xff1a;

在实际生成对抗样本的过程中&＃xff0c;作者建议值为1。直观上&＃xff0c;BIM与FGSM一样方便理解&＃xff0c;同时简洁高效&＃xff0c;攻击效果显著优于FGSM。后续有很多BIM的变种[6]&＃xff0c;都有着不俗的攻击效果。

不过后续研究表明&＃xff0c;基于迭代的方法有相对较差的迁移性&＃xff0c;使得进行黑盒攻击的效果变差。而只有一步的基于梯度的方法虽然白盒攻击的效果不好&＃xff0c;但是能产生更具迁移性的对抗样本。

DeepFool算法

DeepFool[4]由EPFL的Moosavi-Dezfooli等研究者于2015年提出&＃xff0c;收录于2016年CVPR会议中。作为一种白盒对抗样本生成方法&＃xff0c;DeepFool原理上由二分类模型出发&＃xff0c;计算最小扰动距离为当前输入点到分割超平面的最短距离&＃xff0c;推导出二分类任务下的扰动生成方法&＃xff0c;并从二分类推广至多分类。DeepFool使用L2范数约束&＃xff0c;对抗样本生成效果优于FGSM与JSMA方法&＃xff0c;在当时是比较先进的攻击方法。

JSMA算法

2016年Papernot等研究者基于L0的范数约束&＃xff0c;提出了指定目标攻击的JSMA[7]方法用于生成对抗样本。JSMA旨在尽可能减少需要改变的像素点&＃xff0c;目标是找到整幅图片中对指定目标具有利的最大显著性像素点&＃xff0c;通过改变该像素值的大小&＃xff0c;实现基于单像素点的对抗样本生成。

作者构造了显著性列表(saliency map)用于搜索最佳像素点&＃xff0c;如公式2-1所示&＃xff0c;当像素点对指定目标类别的偏导数小于0时&＃xff0c;增加该像素点的像素值将导致指定目标类别的得分函数值降低&＃xff1b;当该像素点对其它类别的偏导数和大于0时&＃xff0c;增加该像素点的像素值将导致其它类别的得分函数值增大&＃xff0c;等价于降低了指定目标类别的得分函数值。这样的像素点对指定目标不利&＃xff0c;不属于最佳像素点。相反&＃xff0c;当像素点对指定目标类别的偏导数大于0或者对其它类别的偏导数和小于0时&＃xff0c;增加该像素点的像素值将有利于模型判定为指定目标类别&＃xff0c;显著性最大的像素点即为JSMA所要搜索的像素点。在实际的对抗样本生成中&＃xff0c;由于单像素点的约束过强&＃xff0c;作者建议放宽至两个像素点对的生成上&＃xff0c;如公式2-2所示。

公式2-1 JSMA显著性列表计算公式

公式2-2 像素点对的显著性列表计算

作者在MNIST数据集上使用JSMA生成了对抗样本&＃xff0c;如图2-1所示。我们可以看到&＃xff0c;对角线上的图片为原始图片&＃xff0c;在L0的范数约束下&＃xff0c;肉眼较容易地区分对抗样本与原始图片的差别。

图2-2 JSMA在MNIST数据集上生成的对抗样本

4.Advbox攻击步骤

Advbox目前实现的方法都是基于白盒的攻击。我们在mnist数据集上训练了简单的cnn模型&＃xff0c;训练的准确率达到了98%。然后在此模型上进行了untargeted攻击&＃xff0c;选取了mnist的测试集10000张图片。分别使用了FGSM和BIM进行攻击&＃xff0c;攻击成功率分别达到了97.6%和99.98%。下面以mnist举例&＃xff0c;

(1)首先要训练一个模型并保存模型参数。

fluid.io.save_params(exe,"./mnist/", main_program&＃61;fluid.default_main_program())

(2)然后加载模型的参数还原模型。

fluid.io.load_params(exe,"./mnist/", main_program&＃61;fluid.default_main_program())

(3)利用还原的模型&＃xff0c;构造一个PaddleModel对象。

m&＃61; PaddleModel(fluid.default_main_program(), IMG_NAME, LABEL_NAME,

logits.name, avg_cost.name, (-1,1))

(4)选择一种攻击方法&＃xff0c;比如GradientSignAttack(FGSM)&＃xff0c;将PaddleModel作为参数传给GradientSignAttack。

att&＃61; GradientSignAttack(m)

(5)把image和label作为参数传入4中的attack对象中&＃xff0c;则进行攻击&＃xff0c;生成对抗样本保存在返回值Adversary中。

adversary&＃61; att(Adversary(data[0][0], data[0][1]))

end

Advbox的github地址如下&＃xff1a;https://github.com/PaddlePaddle/models/tree/develop/fluid/adversarial

期待有更多开发者和研究者加入到PaddlePaddle平台中来&＃xff0c;共同丰富和完善PaddlePaddle平台的安全生态&＃xff0c;也欢迎贡献自己最新的对抗样本检测、生成或防护算法&＃xff0c;验证评估后我们也会及时更新至Advbox中。

【参考资料】

[1] ChristianSzegedy, VincentVanhoucke, Sergey Ioffe,et al. Rethinking the Inception Architecture for Computer Vision, 2015.

[2]https://github.com/PaddlePaddle/models/tree/develop/fluid/adversarial

[3]Ian J.Goodfellow,JonathonShlens, ChristianSzegedy. Explaining and Harnessing Adversarial Examples, 2014.

[4] AlexeyKurakin, IanGoodfellow, Samy Bengio.Adversarial examples in the physical world, 2016.

[5]Seyed-MohsenMoosavi-Dezfooli,AlhusseinFawzi, PascalFrossard. DeepFool: a simple and accurate method to fool deep neuralnetworks, 2015.

[6]Yinpeng Dong, Fangzhou Liao, Tianyu Pang,et al. Boosting Adversarial Attacks with Momentum, 2017.

[7] NicolasPapernot, PatrickMcDaniel, Somesh Jha,et al. The Limitations of Deep Learning in Adversarial Settings&＃xff0c;2015.

[8]http://staging.paddlepaddle.org/docs/develop/documentation/en/design/fluid.html

[9] https://github.com/tensorflow/cleverhans

[10] Pedro Tabacof, Eduardo Valle.Exploring the Space of Adversarial Images, 2015

[11] NicholasCarlini, David Wagner.Towards Evaluating the Robustness of Neural Networks, 2017

*感谢姜辉对本文的校审

*欢迎关注百度安全实验室&＃xff08;微信公众号ID&＃xff1a;BaiduX_lab&＃xff09;

点击“阅读原文”&＃xff0c;访问Advbox的github地址。

推荐阅读

ip
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
ip
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
text
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
ip
理工科男女不容错过的神奇资源网站

十一长假即将结束，你的假期学习计划进展如何？无论你是在家中、思念家乡，还是身处异国他乡，理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档，能够帮助你在假期中高效学习和提升专业技能。 ... [详细]

蜡笔小新 2024-11-01 11:51:44
ip
Go语言中正则表达式的简易应用

本文介绍了Go语言中正则表达式的基本使用方法，并提供了一些实用的示例代码。 ... [详细]

蜡笔小新 2024-11-14 20:27:47
text
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
text
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
text
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
email
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
cmd
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
ip
深入解析浏览器内核与版本的发展历程

浏览器作为我们日常不可或缺的软件工具，其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程，帮助读者更好地理解这一关键技术组件，揭示其内部运作的奥秘。 ... [详细]

蜡笔小新 2024-11-11 13:34:37
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
ip
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
ip
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
text
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07

ys2011一号_139

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章