论文阅读：DeepWukong:Staticallydetectingsoftwarevulnerabilitiesusingdeepgraphneuralnetwork

作者：锋哥很好 | 来源：互联网 | 2023-08-08 10:30

ACMTransactionsonSoftwareEngineeringandMethodology（TOSEM）ABSTRACT作者针对目前基于机

ACM Transactions on Software Engineering and Methodology&＃xff08;TOSEM&＃xff09;

ABSTRACT

作者针对目前基于机器学习的漏洞检测方法的不足&＃xff0c;提出了一种新的方法&＃xff0c;即同时考虑代码中的控制流、结构化信息以及跨函数的数据流信息&＃xff0c;此外还利用了最新的图神经网络进行嵌入表示。作者将该方法实现为DeepWuKong模型&＃xff0c;并使用现实世界中105428个C\C&＃43;&＃43;程序进行评估&＃xff0c;实验结果表明在静态代码分析问题中将传统程序分析和深度学习进行有效结合具有广阔的应用前景。

INTRODUCTION

现有基于机器学习的静态漏洞检测方法总体思路是构建一个检测模型&＃xff0c;通过样本训练捕获易受攻击程序与其所提取程序特征之间的相关性&＃xff0c;随后便可利用训练好的模型检测新程序中是否存在漏洞。然而这些方法大多侧重于检测低级内存错误&＃xff0c;例如缓冲区溢出和释放后使用。然而&＃xff0c;针对现实世界中的复杂漏洞&＃xff0c;现有方法仍存在以下几个问题&＃xff1a;

未执行过程间程序依赖性分析&＃xff0c;即未考虑函数间的调用关系&＃xff0c;仅可以得到局部函数的代码特征
常采用Word2Vec、Doc2Vec提取浅层代码特征&＃xff0c;如代码标记、抽象语法树&＃xff0c;而未考虑更全面的特征代码&＃xff0c;如控制依赖、数据依赖
现有方法以粗粒度的方式在函数或文件级别检测漏洞&＃xff0c;这种粒度的检测对开发人员精确定位并修复漏洞帮助不大

作者提出了DeepWuKong&＃xff0c;一种基于深度学习的新方法&＃xff0c;即利用图神经网络对代码的文本和结构化信息进行嵌入表示&＃xff0c;以此来检测常见的C\C&＃43;&＃43;漏洞。实际上&＃xff0c;该方法主要对源代码特征提取和神经网络两部分提出了创新&＃xff0c;将传统程序分析和深度学习进行了有效结合&＃xff0c;并结合图神经网络挖掘代码的结构化语义。与传统的静态漏洞检测器和先进的基于深度学习的方法相比&＃xff0c;DeepWuKong表现优异。

本文主要贡献如下&＃xff1a;

提出了一种新的程序切片方法来提取复杂的高级语义特征&＃xff0c;包括程序的数据流和控制流
提出了DeepWukong&＃xff0c;利用图神经网络将代码的文本和结构化信息嵌入到全面的代码表示中&＃xff0c;支持对10种常见C/C&＃43;&＃43;漏洞的精确静态漏洞检测
构建了一个基准&＃xff0c;包括105428个存在漏洞的C\C&＃43;&＃43;程序&＃xff0c;实验结果表明DeepWukong在多个评估指标下均表现优异。

程序切片
代码标记符号化与嵌入
深度图神经网络学习

主要包括两个阶段&＃xff1a;训练阶段和检测阶段。

对于训练阶段&＃xff0c;在&＃xff08;a.1&＃xff09;中&＃xff0c;DeepWukong首先提取源代码的控制流图&＃xff08;CFG&＃xff09;和数据流图&＃xff08;VFG&＃xff09;&＃xff0c;分别计算源代码中的控制依赖和数据依赖关系&＃xff0c;然后基于这些信息构建程序依赖图&＃xff08;PDG&＃xff09;。在&＃xff08;a.2&＃xff09;中&＃xff0c;DeepWukong从程序敏感点&＃xff08;即切片标准&＃xff09;开始沿PDG进行向前和向后遍历&＃xff0c;直到达到固定点&＃xff0c;从而构建程序依赖图的子图XFG&＃xff08;即PDG的子图&＃xff09;&＃xff0c;从而保持程序的数据流和控制流。

为了精确地提取源代码的语义信息以训练神经网络&＃xff0c;DeepWukong首先通过将用户定义的变量和函数映射到&＃xff08;b.1&＃xff09;中的规范符号名来进行变量名规范化&＃xff0c;然后使用Doc2Vec将源代码的每个语句&＃xff08;即XFG上的每个节点&＃xff09;转换为向量表示&＃xff0c;如&＃xff08;b.2&＃xff09;所示。

随后&＃xff0c;将获得的结构化&＃xff08;XFG边&＃xff09;和非结构化信息&＃xff08;XFG上每个节点嵌入向量形式的代码标记&＃xff09;作为神经网络的输入&＃xff0c;如&＃xff08;c.1&＃xff09;所示。然后使用三种图神经网络来评估基于深度学习的方法的性能&＃xff0c;如&＃xff08;c.2&＃xff09;所示。最后&＃xff0c;得到一个训练好的检测模型。

对于检测阶段&＃xff0c;首先提取目标程序的控制和数据依赖信息&＃xff08;a.1&＃xff09;&＃xff0c;以生成一组切片&＃xff08;XFG&＃xff09;&＃xff08;a.2&＃xff09;。对于每个XFG&＃xff0c;在符号化&＃xff08;b.1&＃xff09;和嵌入&＃xff08;b.2&＃xff09;之后&＃xff0c;其边缘及其节点的代码标记都被用作特征&＃xff08;c.1&＃xff09;&＃xff0c;并被送到已训练好的模型中进行漏洞检测。

图卷积层&＃xff0c;也称GCL层&＃xff0c;在该层主要进行节点特征传播&＃xff0c;核心计算公式如下&＃xff1a;

图池化层&＃xff0c;也称GPL层&＃xff0c;通过应用一个池化率k来减小原图的节点数量&＃xff0c;核心计算公式如下&＃xff1a;

多层感知机&＃xff0c;又称为MLP&＃xff0c;主要负责最后的分类工作&＃xff0c;核心计算公式如下&＃xff1a;

EXPERIMENTAL EVALUATION

Dateset

Software Assurance Reference Dataset (SARD)&＃xff0c;一个被广泛使用的漏洞数据集&＃xff0c;作者从其中选取了10种常见的C/C&＃43;&＃43;漏洞
开源项目&＃xff0c;包括redis-5.0.8和lua-5.3.4

对上述数据集进行标注&＃xff0c;在此基础上标记XFG&＃xff0c;然后处理重复冲突样本&＃xff0c;并进行一定的数据分布平衡。

Experimental environment and neural network configuration

NVIDIA GeForce GTX 1080 GPU&＃xff0c;Intel Xeon E5-1620 CPU 3.5GHz&＃xff0c;PyTorch Geometric

采用10折交叉验证进行模型训练&＃xff0c;图中每个节点的向量表示维度设置为64&＃xff0c;dropout设置为0.5&＃xff0c;epoch设置为50&＃xff0c;优化器采用Adam&＃xff0c;学习率为0.001。

评估指标包括ACC、FPR、FNR、TPR、P、F1、AUC、IFN、MKN

C. Research Questions

RQ1 验证DeepWukong在漏洞检测任务中的有效性

使用三种不同的图嵌入方式&＃xff0c;包括GCN、GAT、k-GNNs&＃xff0c;其实验结果为

DeepWukong通过图嵌入方式自动学习代码中的高级语义特征&＃xff0c;在漏洞检测任务中表现出优异的性能。此外&＃xff0c;DeepWukong的性能与图神经网络类别无关&＃xff0c;因为这三中图计算模型都显示出了良好的结果。总体来看&＃xff0c;k-GNN的性能略优于其他两种图神经网络模型&＃xff0c;因为它可以更好地捕获XFG的结构化和非结构化信息。

RQ2 将DeepWukong与传统的漏洞检测工具进行对比

传统的漏洞检测工具包括FLAWFINDER、RATS、CLANG STATIC ANALYZER和INFER。实验结果表明&＃xff0c;传统的基于规则的检测方法不适用于检测现实世界中的复杂漏洞&＃xff0c;而通过深度学习对控制和数据流信息嵌入的DeepWukong模型可以在不知道任何预定义反模式的情况下&＃xff0c;能够有效地定位漏洞。

RQ3 将DeepWukong与现有的基于深度学习的漏洞检测方法进行对比

现有的基于深度学习的漏洞检测方法分别使用了TOKEN-BASED embedding、VGDETECTOR、VULDEEPECKER。实验结果表明&＃xff0c;DeepWukong在图嵌入过程中保留了更加全面的代码信息&＃xff08;过程间的控制流和数据流信息&＃xff09;&＃xff0c;能够捕获漏洞的共同特征&＃xff0c;并大大提高现有基于深度学习的方法的性能。

RQ4 验证DeepWukong在真实软件漏洞检测中的有效性

实验结果表明&＃xff0c;DeepWukong可以有效地检测现实开源应用程序中的漏洞&＃xff0c;并显著提高传统和基于深度学习的漏洞检测方法的性能。

LIMITATIONS

数据集打标签过程可能存在纰漏
程序敏感点的选取方式可能并非完美
仅局限于C/C&＃43;&＃43;程序中的10种漏洞

CONCLUSION

作者提出一种基于深度学习的新方法&＃xff0c;主要对源代码特征提取和神经网络两部分提出了创新&＃xff0c;将传统程序分析和深度学习进行了有效结合&＃xff0c;并结合图神经网络挖掘代码的结构化语义&＃xff0c;以支持对广泛漏洞的检测。DeepWukong首先执行程序切片以提取细粒度但复杂的语义特征&＃xff0c;然后与图神经网络相结合以生成紧凑的低维表示。将其应用于包含10种比较流行的C/C&＃43;&＃43;漏洞和2个实际开源项目的10万多个易受攻击的程序&＃xff0c;结果证明DeepWukong优于几种最先进的方法&＃xff0c;包括传统的漏洞检测器和基于深度学习的方法。

推荐阅读

hook
PyTorch 2.0来了！100%向后兼容，一行代码将训练提速76%！

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达点击进入—CV微信技术交流群转载自：机器之心PyTorch官方 ... [详细]

蜡笔小新 2024-09-25 12:08:56
go
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
process
TLB 缓存延迟刷新漏洞 CVE201818281 解析

TLB 缓存延迟刷新漏洞 CVE201818281 解析 ... [详细]

蜡笔小新 2024-09-27 17:53:48
数组
DNNBrain：北师大团队出品，国内首款用于映射深层神经网络到大脑的统一工具箱...

导读深度神经网络(DNN)通过端到端的深度学习策略在许多具有挑战性的任务上达到了人类水平的性能。深度学习产生了具有多层抽象层次的数据表示;然而，它没有明确地提供任何关 ... [详细]

蜡笔小新 2024-09-26 12:34:26
process
【自动驾驶】second模型训练

1，数据组织：训练验证数据生成：pythoncreate_data.pynuscenes_data_prep--data_pathNU ... [详细]

蜡笔小新 2024-09-25 22:18:52
go
方舟等级生成工具_关于方舟编译器的几个小疑问

之前了解了一下方舟编译器，但是很粗，今天在知乎上看了各种大神关于方舟编译器的说法，其实一直以来就有几个问题，我看了知乎上的说 ... [详细]

蜡笔小新 2024-09-24 17:35:24
go
机器学习、深度学习、人工智能、云计算、和大数据之间有什么内在联系

本文主要介绍关于深度学习,pytorch,百度云服务器,百度机器学习,BCC的知识点，对【BCCBML使用记录百度云服务器百度机器学习深度学习】和【机器学习、深度学习、人工智能、云计算、和大 ... [详细]

蜡笔小新 2024-09-24 17:16:11
process
【历史上的今天】5 月 18 日：微软反垄断诉讼；携程旅行网上线；谷歌首次公布 TPU

整理|王启隆透过「历史上的今天」，从过去看未来，从现在亦可以改变未来。今天是2022年5月18日，在1939年的今天，彼得 ... [详细]

蜡笔小新 2024-09-24 17:15:58
process
显卡驱动对游戏的影响及其提升效果的研究

本文研究了显卡驱动对游戏体验的提升效果，通过比较新旧驱动加持下的RTX 2080Ti显卡在游戏体验上的差异。测试平台选择了i9-9900K处理器和索泰RTX 2080Ti玩家力量至尊显卡，以保证数据的准确性。研究结果表明，显卡驱动的更新确实能够带来近乎50%的性能提升，对于提升游戏体验具有重要意义。 ... [详细]

蜡笔小新 2023-12-13 21:52:19
select
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
select
腾讯BERT推理模型TurboTransformers的快速推理能力

本文介绍了腾讯最近开源的BERT推理模型TurboTransformers，该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想，通过简化问题和加速开发，实现了快速推理能力。同时，文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题，并提出了合并计算的解决方案。 ... [详细]

蜡笔小新 2023-12-12 13:48:41
数组
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
command
安卓系统上位机搭配科大讯飞核心板AEC的评估方法

获取原始语音系统图使用matlab生成一个测试用的单频信号，1KHz，1Vrmsclcclearall;closeall;f1000;%定义信号频 ... [详细]

蜡笔小新 2024-09-30 19:06:04
hook
试图将驱动程序添加到存储区_新版Wii U模拟器CEMU 1.15.1将发布提供众多改进

已经为Patreon支持者发布了新版本的WiiUEmulatorCEMU，并将在本周晚些时候面向所有人推出。CEMU1.15.1对Wiimotes进行了大量改进&#x ... [详细]

蜡笔小新 2024-09-27 19:14:55
bash
oracle去掉日期横杠,Shell中下划线_与变量的关系

一个shell脚本根据日期和时间自动备份数据数据库的时候遇到一个问题$viu01appbakbinpublic_serbak.sh#!binshexportORACLE_SIDor ... [详细]

蜡笔小新 2024-09-25 17:43:06

锋哥很好

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章