基于稀疏表示的物联网边缘僵尸网络攻击检测

作者：手机用户2602899031 | 来源：互联网 | 2023-07-31 08:36

物联网（IoT,Internet-of-Things）旨在通过感测，处理和分析从异构IoT设备获得的大量数据，以无缝方式互连成千上万个智能对象/设备。面向物联网基础设施的这种快速发展，是以通过基于物

物联网（IoT,Internet-of-Things）旨在通过感测，处理和分析从异构IoT设备获得的大量数据，以无缝方式互连成千上万个智能对象/设备。面向物联网基础设施的这种快速发展，是以通过基于物联网的僵尸网络攻击和增加安全威胁为代价的。在这项工作中提出了一种基于稀疏表示框架(sparsity representation)的物联网僵尸网络攻击检测方法，该方法使用重建错误阈值规则识别来自受感染的物联网设备的边缘恶意网络流量。僵尸网络攻击检测是基于小型良性IoT网络流量数据执行的，因此没有关于恶意IoT流量数据的先验知识。在基于物联网的真实网络数据集上展示了结果，并展示了提出的技术针对基于重构错误的自动编码器方法的有效性。

0x01 Absert

物联网技术在最近的几年中出现，基于三个支柱：高度异构的物联网数据是通过网关捕获的，并可以通过安全的网络基础架构立即访问各种应用程序。物联网应用的类型从智能家居，智能城市和可穿戴设备到能源管理，预测性维护和汽车驾驶。然而，基于物联网的技术的快速增长的使用和实现是以解决重大业务和技术障碍为代价的，这体现在动态性，可扩展性，异构性和端到端安全性/隐私性上。

更具体地说，在IoT基础设施，IoT应用程序和IoT设备上遵循动态自适应行为，因此在所有IoT层中促进（半）自动行为很重要。这引起了对来自网络层以及物联网基础设施的高可扩展性的追求。此外，应通过物联网应用程序和平台内有效语义互操作性的概念来解决由于大量不同物联网设备的广泛使用和互连而导致的增强的异构行为。端到端安全性也是一个非常关键的问题，因为物联网设备，物联网应用及其支持平台可能容易受到各种攻击。

在当前工作中，重点是在IoT边缘的高效，强大和快速检测僵尸网络攻击。更具体地说，在过去的几年中，在物联网安全性和物联网网络入侵检测方面进行了大量的研究工作。入侵检测系统构成物联网系统最重要的核心组件之一，因此应在异构环境中引入新颖的适当技术，以确保安全性和私密性。

需要付出更大的努力来解决通信技术和IoT在安全中间件中的集成问题，从而能够应对已定义的保护约束以及移动设备中的IoT安全性。在集中式和分布式情况下都应考虑这些挑战，因此必须谨慎设计新的安全策略。此外，物联网设备的脆弱性导致可以构筑庞大的僵尸网络军团来执行基于物联网的DDoS攻击。近期相关工作包括：

基于软件定义网络（SDN）的防御体系结构用于在Mirai僵尸网络假设下根据僵尸程序的扫描阶段（和流量）来检测和缓解IoT DDoS攻击，以识别受损的IoT节点；还有IoT蜜罐和沙盒框架，用于吸引和分析针对各种CPU架构上运行的各种IoT设备的Telnet攻击。

用于物联网网络中轻量级异常检测的博弈论方法，其中采用纳什均衡的概念来确定均衡状态，从而允许入侵检测系统激活异常检测过程以检测新的攻击模式；一种基于MapReduce架构的实时混合IoT入侵检测方法，该方法由基于异常和基于规范的入侵检测模块组成，用于检测沉孔和选择性转发IoT攻击；适用于物联网的自适应，知识驱动的入侵检测系统，该系统能够跨运行不同通信协议的物联网系统实时检测攻击。该系统自动收集有关受监视网络和实体的功能的信息，并利用这些知识来动态配置最有效的检测技术集。

新型的IoT入侵检测系统，重点是对路由攻击的检测，例如欺骗或更改的信息，沉陷漏洞和选择性转发。此外还有深度自动编码器僵尸网络攻击检测方法，其中提出了一种基于网络的新颖异常检测方法，该方法基于提取物联网网络的行为快照，并采用深度自动编码器来检测受感染的物联网设备发出的异常网络流量。

本文引入了一种用于即时物联网僵尸网络攻击检测的诊断机制，其最终目标是通过立即隔离位于物联网边缘的受损物联网设备来最大程度地降低攻击的影响。由于控制边缘IoT设备的计算能力有限，强烈希望提供一种算法程序，该程序使用尽可能少的训练和测试数据来实现精确的IoT僵尸网络攻击检测器。在这里，假设在训练过程中没有恶意物联网网络流量数据的先验知识。首先，基于稀疏表示框架的重构错误阈值规则用于IoT僵尸网络攻击检测，假设仅使用非常有限数量的训练和测试数据来处理低计算约束以及快速反应。其次，采用贪婪的稀疏恢复算法，称为正交匹配追踪（orthogonal matching pursuit），因为它仅涉及两个超参数调整，即阈值常数和稀疏度。

0x02 Dataset and Feature Extraction

在这里使用了N-BaIoT数据集1，该数据集对应于从九种商用IoT设备收集的实际流量数据。为了完整起见，接下来提供数据集的简短概述。

N-BaIoT数据集包含从原始IoT网络流量数据中提取的功能。更具体地，每当接收到分组时，就计算传输每个分组的协议和主机的行为快照。每个快照对应于一组统计特征中反映的数据包的上下文信息，即，每个数据包的到达会从五个时间窗口（100ms，500ms，1.5sec，10sec和1min）中提取23个统计特征，然后每个窗口中的五个23维向量被连接成单个115维向量（在本文的其余部分中，将115维向量作为样本）。

为了进行性能评估，使用了BASHLITE僵尸网络攻击期间获得的恶意样本。具体来说，使用了基于三种BASHLITE攻击类型的样本：

（I）COMBO：发送垃圾邮件数据并打开与指定IP地址和端口的连接；

（II）垃圾邮件：发送垃圾邮件数据；

（III）扫描：扫描易受攻击设备的网络。

在性能评估期间，使用了与八个物联网设备相对应的良性样本，如下表第三列所示。

0x03 Sparse Representation for IoT Botnet Attack Detection

A.稀疏表示框架

在本节中将使用少量训练和测试样本来描述用于物联网僵尸网络攻击的稀疏表示框架。令S为位于IoT边缘的IoT设备总数。然后，可以基于从第i个IoT设备提取的良性样本为每个IoT设备构建矩阵Vi，如下所示：

其中vi,j∈Rd×1表示第i个IoT设备的第j个d维样本，ni是从第i个IoT设备获得的良性训练样本的数量。良性训练样本的总数为N = n1 +··+ nS。以列形式重写每个向量vi,j：

其中v（i,j）w∈Rdw×1，w = 1,.. ,W，d = d1 +··+ dW，W表示第二部分中描述的用于计算统计特征的窗口数。根据N-BaIoT数据集描述，对于w = 1，W = 5且dw = 23,其中w = 1, . . . , W 。因此，每个子向量v(i,j)w的维数dw是常数，等于23，∀w=1,…,W(即d=d1+···+dW=d1+···+d5=23+···+23=5·23=115)

在物联网僵尸网络攻击检测中，最终目标是在观察到的样本y∈Rd×1的情况下，检测物联网网络流量数据是对应于良性还是恶意行为。考虑y是与第i个IoT设备相对应的样本。推断y是否是良性的，是从“健康”的IoT设备发出的。可以将样本y编写为与第i个IoT设备关联的良性训练样本的线性组合，如下所示：

其中ci 是根据Vi的列包含y的表示系数的向量。

总体数据矩阵V包含与从所有IoT设备提取的良性样本相对应的样本，并且被定义为所有良性数据矩阵Vi，i = 1…S，

通过组合上式，可以根据整体良性训练数据矩阵V稀疏表示y，即y = Vc，其中

表示系数向量，以下称为稀疏编码（sparse code），除与第i个IoT设备关联的元素外，其元素全为零。

给定整体数据矩阵V和观察到的样本y，可以通过正交匹配追踪（OMP）算法解决以下优化问题，以获得稀疏编码c的估计:

其中||·||2表示l2范数，||·||0是0l(伪)范数，其定义为给定矢量的非零元素数，τ表示稀疏代码cˆ的稀疏度。下面算法1总结了在给定y和V的情况下估算稀疏码c的步骤。

OMP是一种迭代的轻量级算法过程，其中在每次迭代期间，它选择V的列以包括在当前支持集Λk中（包含索引的索引）。通过最大化V列与当前残差rk-1之间的内积来实现。将新列添加到支持集后，它将解决最小二乘问题，以最大限度地减少当前支持集上的误差。结果，残差变得正交于与当前支撑集相对应的V列。算法1中的第2行指示了停止条件：当达到稀疏度τ或残差的l2范数低于给定常数时，迭代过程将停止。在当前的工作中，将τ视为超参数，而在实验评估过程中使其不变。

基本假设是，如果观察到的样本y对应于良性流量行为，则期望重构误差||y-Vcˆ||2较小，因为cˆ中非零条目的索引将对应于与V相关的V列。相反，当y对应于看不见的（恶意）流量行为时，预计会有很高的重构误差||y-Vcˆ||2，因为估计的稀疏编码cˆ不能以V来稀疏表示，因为恶意物联网流量信息未包含在总体中结果，物联网僵尸网络攻击检测阈值规则可以写为：

其中θ是决策阈值。给定仅包含良性的整体数据矩阵V，可以离线估算决策阈值。

B.决策阈值估计和超参数调整

算法2总结了在给定V的条件下找到超参数τ，θ的最佳组合的主要步骤。在当前工作中，采用代理离群值的概念来补偿超参数调整期间缺少恶意样本的情况。假定如果仅在良性样本上计算稀疏代码，则某些重构错误可能会获得较大的值。结果，选择最大重构误差作为阈值θ可能导致接受大多数恶意样本为良性。

采用四分位数的概念可以消除良性样本中存在的一定数量的代理离群值（获得较大的重构误差值）。更具体地说，首先计算所有良性训练样本的稀疏编码，然后估计相应的重构误差。给定计算出的重构误差，估计下四分位数（Q1），上四分位数（Q3）和四分位数间距（IQR = Q3 3 Q1），因此属于良性训练样本集的样本y是合格的作为代理离群值：

其中ρ是拒绝率，反映了处于非极限范围内的良性训练样本的百分比。可以去除代表虚假训练样本的重构误差的极值，因此将剩余重构误差的最大值选择为阈值θ。此外，可以通过交叉验证找到最佳的ρ值（请参见算法2）。

C.对物联网僵尸网络攻击检测的多数投票法

仅使用一个测试样本y∈R115×1来检查现实情况，以便以可靠的方式尽快检测到IoT网络流量行为。

考虑y可以分解为y^1,…,y^5的形式的五个子向量，每个子向量y^w∈R23×1反映了五个时间窗的统计特征，分别为100ms（w = 1），500ms（w = 2），1.5s（w = 3），10s（w = 4）和1分钟（w = 5）。对于w = 1，的每个子向量y^w，可以解决优化问题如下：

其中V^w∈R23×N对应于在第w个时间窗上的良性训练，因此得到一组五个稀疏编码cˆ1,…,cˆ5。接下来，计算形式为||y^w-V^wc^w||2（w = 1，…，5）的五个重构误差，导致五个决策函数。有关物联网僵尸网络攻击检测是否存在的最终决定是通过多数投票制提供的。显然，根据算法2中描述的过程，在给定Vw的情况下估计出不同的决策阈值θw（第3行，第15行和第30行的循环中存在“ for w = 1 to 5 do”形式的内部循环））。

0x04 Experimental Evaluation

在本节中，将基于多数投票的提议的稀疏表示（SR）方法的IoT僵尸网络攻击检测性能与单个隐藏层自动编码器（AE）进行了比较，其中N-BaIoT数据集用于评估过程。对于每个物联网设备，从每个数据集的前半部分随机选择100、300和500个良性样本，以估计决策阈值，并按照3倍（CV = 3）交叉验证过程执行超参数的调整，其中τ在T = {5，10，15，20，30}变化，而ρ在P = {0.01，0.5，1，2，3}变化，并且e固定且等于0.001。

对于AE超参数调整，采用了与算法2分析的策略类似的策略（基于AE重建面向错误的决策阈值估计和超参数调整），其中历元数是固定的，等于50，而隐藏层中的节点数则在{20，30，40，50，60}变化。结果，SR和AE都分别具有一个超参数，稀疏度和节点数。在这里，使用了现成的AE实现，其中KerneScale参数设置为auto且Standardize设置为true，而其余参数保持默认值。

物联网僵尸网络攻击检测的评估结果以混淆矩阵的形式报告，如上表所示，其中TP表示正确检测到的恶意样本数量，TN表示正确检测到的良性样本数量，FN表示数量错误检测到的恶意样本数量，FP表示错误检测到的良性样本数量。在这里，基于混淆矩阵计算了以下指标，以评估所提出框架的性能：

（I）正预测值（PPV），它表示正确检测到的恶意样本在检测为恶意的总样本中所占的比例，

（ II）灵敏度（检测率），显示正确检测到的恶意样本在实际恶意样本总数中的比例；

（III）F1-分数对应于PPV的谐波均值和灵敏度，

（IV）准确度（ACC）表示正确检测到的样本占检测到的样本总数的比例。

为了评估这两种方法的性能，分别形成了五个Monte Carlo运行。在每次蒙特卡洛（Monte Carlo）运行期间，都遵循“leave-one-out-device-out”的交叉验证（LOOCV）策略，其中使用S-1 IoT设备的良性样本进行调整和阈值估计，而当前（测试中）的IoT设备的良性样本和恶意样本用于测试/评估目的。重复此过程S次，并报告了所有IoT设备和所有Monte Carlo运行的总平均性能指标。此评估是与IoT设备无关的，它显示了泛化能力，因为正在测试的IoT设备未包括在调整过程中。

在评估过程中，分别使用了100、300和500个遗留的良性样本（LOOCV）进行测试，以及从每个IoT设备的COMBO恶意数据集中随机选择的200个恶意样本（1600个恶意测试样本总数）。对于“垃圾邮件”和“扫描”僵尸网络攻击，分别从每个IoT设备的恶意垃圾邮件和“扫描”数据集中使用了200、600和1000个随机选择的样本（每个评估方案中总共有1600、4800和8000个恶意测试样本）。

要注意，使用了从调整过程中使用的八个IoT设备获得的恶意样本。上图1显示了与COMBO僵尸网络攻击相对应的结果，上图2描述了在垃圾邮件僵尸网络攻击的情况下的性能，上图3相应于‘扫描’僵尸网络攻击结果。在所有图中，图例名称中的下标表示在超参数调整和决策阈值估计过程中使用的每个IoT设备的良性样本数。黑色竖线表示误差线，因为每个实验方案执行5次（Monte Carlo运行）乘以S = 8（IoT设备总数）。

显然，从灵敏度，F1分数和ACC方面考虑，所提出的SR方法具有出色的性能，而AE技术的PPV效果略好。这意味着SR在准确检测IoT网络中的恶意行为和正常行为方面具有强大的功能（与SR方法的误差线相比，与AE对应的Sensitivity，F1分数和ACC误差线更宽）。此外，SR和AE之间的时间复杂度相当且低，因此SR可用于准确，快速地物联网僵尸网络攻击检测。

0x05 Conclution

在本文中提出了一种基于少量良性训练样本的快速物联网僵尸网络攻击检测方法，并在检测过程中使用一个样本。所提出的方法基于稀疏表示框架，其中仅使用良性训练样本来估计决策阈值。将稀疏表示方法与单个隐藏层自动编码器进行比较。通过实验评估表明，与自动编码器相比，该方法在F1得分，检测率和准确性方面表现更好。作为未来的工作，打算使用更多的物联网僵尸网络攻击数据集来研究提议的方法，并与其他物联网僵尸网络攻击检测方法进行广泛的比较。

推荐阅读

ip
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
main
精选Linux经典著作在数字图书馆展出

数字图书馆近期展出了一批精选的Linux经典著作，这些书籍虽然部分较为陈旧，但依然具有重要的参考价值。如需转载相关内容，请务必注明来源：小文论坛（http://www.xiaowenbbs.com）。 ... [详细]

蜡笔小新 2024-11-08 10:55:29
metadata
Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？

Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？ ... [详细]

蜡笔小新 2024-11-08 09:25:06
buffer
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
ip
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
ip
Cacti 数据库错误：SQL 查询失败，错误代码 145

在使用 Cacti 进行监控时，发现已运行的转码机未产生流量，导致 Cacti 监控界面显示该转码机处于宕机状态。进一步检查 Cacti 日志，发现数据库中存在 SQL 查询失败的问题，错误代码为 145。此问题可能是由于数据库表损坏或索引失效所致，建议对相关表进行修复操作以恢复监控功能。 ... [详细]

蜡笔小新 2024-11-11 12:57:49
int
Python错误重试让多少开发者头疼？高效解决方案出炉

### 优化后的摘要在处理 Python 开发中的错误重试问题时，许多开发者常常感到困扰。为了应对这一挑战，`tenacity` 库提供了一种高效的解决方案。首先，通过 `pip install tenacity` 安装该库。使用时，可以通过简单的规则配置重试策略。例如，可以设置多个重试条件，使用 `|`（或）和 `&`（与）操作符组合不同的参数，从而实现灵活的错误重试机制。此外，`tenacity` 还支持自定义等待时间、重试次数和异常处理，为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 10:33:20
int
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
bit
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
int
LeetCode 1137: 计算第 N 个泰波那契数的高效算法解析

泰波那契数列与斐波那契数列类似，但其计算方法有所不同。本文详细解析了如何高效计算第 N 个泰波那契数，并提供了一种基于动态规划的优化算法。通过使用数组记录中间结果，避免了重复计算，显著提高了算法的执行效率。代码示例展示了具体的实现方法，帮助读者更好地理解和应用这一算法。 ... [详细]

蜡笔小新 2024-11-10 11:06:50
main
Java Socket 关键参数详解与优化建议

Java Socket 的 API 虽然被广泛使用，但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数，如 backlog 参数，它用于控制服务器等待连接请求的队列长度。此外，还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响，并提供了优化建议，帮助开发者提升网络通信的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-09 21:38:05
char
18. ChartData类详解（MPAndroidChart中文版解析）

在《ChartData类详解》一文中，我们将深入探讨 MPAndroidChart 中的 ChartData 类。本文将详细介绍如何设置图表颜色（Setting Colors）以及如何格式化数据值（Formatting Data Values），通过 ValueFormatter 的使用来提升图表的可读性和美观度。此外，我们还将介绍一些高级配置选项，帮助开发者更好地定制和优化图表展示效果。 ... [详细]

蜡笔小新 2024-11-09 20:54:36
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
controller
优化后的标题：深入探讨网关安全：将微服务升级为OAuth2资源服务器的最佳实践

本文深入探讨了如何将微服务升级为OAuth2资源服务器，以订单服务为例，详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖，并配置Spring Security以实现对微服务的保护。通过这一过程，不仅增强了系统的安全性，还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践，包括如何配置OAuth2客户端和资源服务器，以及如何处理常见的安全问题和错误。 ... [详细]

蜡笔小新 2024-11-09 16:13:27
export
Unable to Establish Connection with GitHub for Updating the CocoaPods/Specs Repository

在安装 iOS 开发所需的 CocoaPods 时，用户可能会遇到多种问题。其中一个常见问题是，在执行 `pod setup` 命令后，系统无法连接到 GitHub 以更新 CocoaPods/Specs 仓库。这可能是由于网络连接不稳定、GitHub 服务器暂时不可用或本地配置错误等原因导致。为解决此问题，建议检查网络连接、确保 GitHub API 限制未被触发，并验证本地配置文件是否正确。 ... [详细]

蜡笔小新 2024-11-09 11:44:58

手机用户2602899031

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章