AndroidMalwareDetectionwithSeq2vec

作者：端庄的张佳迎 | 来源：互联网 | 2023-05-20 21:41

AndroidMalwareDetectionwithSeq2vec基于Seq2vec的安卓恶意软件检测，数据集取自CICMalDroid2020，并

Android Malware Detection with Seq2vec

基于Seq2vec的安卓恶意软件检测&＃xff0c;数据集取自CICMalDroid 2020&＃xff0c;并进行了特征提取。

引言

最近在做Android恶意软件静态检测的研究&＃xff0c;此前发布了两个版本&＃xff0c;都对Android恶意软件有很高的识别率&＃xff0c;现在尝试用Seq2vec的方法进行Android恶意软件检测。我尝试使用了Bi-LSTM、CNN&＃xff0c;发现&＃xff0c;Bi-LSTM实在训练太慢&＃xff0c;而CNN网络不但训练快&＃xff0c;而且训练集上准确度可以达到97%以上&＃xff0c;验证集以及测试集准确度都能达到93%以上。

先前版本如下&＃xff1a;

Android Malware Detection

Android Malware Detection with N-gram

1 数据获取

我们的Android应用数据来自加拿大网络安全研究所的CICMalDroid 2020&＃xff0c;该Android应用数据集收录了包括4033个良性软件&＃xff08;Benign&＃xff09;、1512个广告软件&＃xff08;Adware&＃xff09;、2467个网银木马&＃xff08;Banking Malware&＃xff09;、3896个手机风险软件&＃xff08;Mobile Riskware&＃xff09;以及4809个SMS恶意软件。

使用Google提供的反编译工具—Apktool对Apk文件进行反编译&＃xff0c;并获取了其中的用于在Dalvik虚拟机上运行的主要源码文件—smali文件&＃xff0c;批量反编译以及提取特征的脚本文件见上方的先前版本&＃xff0c;这里不再提供。smali是对Dalvik字节码的一种解释&＃xff0c;虽然不是官方标准语言&＃xff0c;但所有语句都遵循一套语法规范。由于Dalvik指令有两百多条&＃xff0c;对此我们进行了分类与精简&＃xff0c;去掉了无关的指令&＃xff0c;只留下了M、R、G、I、T、P、V七大类核心的指令集合&＃xff0c;并且只保留操作码字段&＃xff0c;去掉了参数。M、R、G、I、T、P、V七大类指令集合分别代表了移动、返回、跳转、判断、取数据、存数据、调用方法七种类型的指令&＃xff0c;具体分类如下图所示。

Dalvik指令分类图

对此特征提取后的数据集进行统计发现&＃xff0c;特征最短长度为10&＃xff0c;最长可达到1,104,801&＃xff0c;其概率分布如下&＃xff0c;可见分布极不均衡且数据长度单位可以万计。

data_statistics

# 下载paddlenlp #!pip install --upgrade paddlenlp -i https://pypi.org/simple

2 导入所需要的包

import os import numpy as np import pandas as pd from functools import partial from utils import load_vocab, convert_example from sklearn.model_selection import train_test_split from matplotlib import pyplot as pltimport paddle import paddle.nn as nn import paddle.nn.functional as F import paddlenlp as ppnlp from paddlenlp.data import Pad, Stack, Tuple from paddlenlp.datasets import MapDataset from Model import CNNModel import datetime start&＃61;datetime.datetime.now()

3 数据集和数据处理

自定义数据集

除了七大类指令外&＃xff0c;原始数据字典还包括了分隔符|以及填充符#&＃xff0c;数据读取同样依照压缩比率进行词汇的划分&＃xff0c;并使用填充符#进行末位单词的补足。

data_split: 按照rate进行数据划分&＃xff0c;train_size&＃61;origin_size*(1-rate)*(1-rate) test_size&＃61;origin_size*rate eval_size&＃61;origin_size*(1-rate)*rate
vocab_compress: vocab压缩&＃xff0c;dict随着rate指数级增长&＃xff0c;即dict_size&＃61;vocab_dict_size^rate&＃xff0c;这里rate设为6

#数据集划分 def data_split(input_file, output_path, rate&＃61;0.2):if not os.path.exists(output_path):os.makedirs(output_path)origin_dataset &＃61; pd.read_csv(input_file, header&＃61;None)[[1,2]] # 加入参数train_data, test_data &＃61; train_test_split(origin_dataset, test_size&＃61;rate)train_data, eval_data &＃61; train_test_split(train_data, test_size&＃61;rate)train_filename &＃61; os.path.join(output_path, &＃39;train.txt&＃39;)test_filename &＃61; os.path.join(output_path, &＃39;test.txt&＃39;)eval_filename &＃61; os.path.join(output_path, &＃39;eval.txt&＃39;)train_data.to_csv(train_filename, index&＃61;False, sep&＃61;"\t", header&＃61;None)test_data.to_csv(test_filename, index&＃61;False, sep&＃61;"\t", header&＃61;None)eval_data.to_csv(eval_filename, index&＃61;False, sep&＃61;"\t", header&＃61;None)

if not os.path.exists(&＃39;dataset&＃39;):os.mkdir(&＃39;dataset&＃39;) #这里可以使用data_split函数重新划分数据集&＃xff0c;也可以将我已经划分的数据集通过cp的方式复制到dataset文件夹下&＃xff0c;两种方式请选择一个 #data_split(input_file&＃61;&＃39;data/data86222/mydata.csv&＃39;,output_path&＃61;&＃39;dataset&＃39;, rate&＃61;0.2) !cp data/data86222/train.txt dataset/ && cp data/data86222/eval.txt dataset/ && cp data/data86222/test.txt dataset/

vocab_dict&＃61;{0:&＃39;#&＃39;,1:&＃39;|&＃39;,2:&＃39;M&＃39;,3:&＃39;R&＃39;,4:&＃39;G&＃39;,5:&＃39;I&＃39;,6:&＃39;T&＃39;,7:&＃39;P&＃39;,8:&＃39;V&＃39;} #vocab压缩&＃xff0c;dict随着rate指数级增长&＃xff0c;即len(dict)&＃61;len(vocab_dict)^rate #默认rate&＃61;4&＃xff0c;建议可以设置为2、4、6、8,其中8容易爆显存 def vocab_compress(vocab_dict,rate&＃61;4):if rate<&＃61;0:returnwith open(&＃39;dict.txt&＃39;,&＃39;w&＃39;,encoding&＃61;&＃39;utf-8&＃39;) as fp:arr&＃61;np.zeros(rate,int)while True:pos&＃61;rate-1for i in range(rate):fp.write(vocab_dict[arr[i]])fp.write(&＃39;\n&＃39;)arr[pos]&＃43;&＃61;1while True:if arr[pos]>&＃61;len(vocab_dict):arr[pos]&＃61;0pos-&＃61;1if pos<0:returnarr[pos]&＃43;&＃61;1else:break rate&＃61;6 pad&＃61;&＃39;&＃39; unk&＃61;&＃39;&＃39; for i in range(rate):pad&＃43;&＃61;&＃39;#&＃39;unk&＃43;&＃61;&＃39;|&＃39; #vocab_compress(vocab_dict,rate)

加载词表

from paddlenlp.datasets import load_datasetdef read(data_path):with open(data_path, &＃39;r&＃39;, encoding&＃61;&＃39;utf-8&＃39;) as f:for line in f:l &＃61; line.strip(&＃39;\n&＃39;).split(&＃39;\t&＃39;)if len(l) !&＃61; 2:print (len(l), line)words, labels &＃61; line.strip(&＃39;\n&＃39;).split(&＃39;\t&＃39;)if len(words)&＃61;&＃61;0:continueyield {&＃39;tokens&＃39;: words, &＃39;labels&＃39;: labels}# data_path为read()方法的参数 train_ds &＃61; load_dataset(read, data_path&＃61;&＃39;dataset/train.txt&＃39;,lazy&＃61;False) dev_ds &＃61; load_dataset(read, data_path&＃61;&＃39;dataset/eval.txt&＃39;,lazy&＃61;True) test_ds &＃61; load_dataset(read, data_path&＃61;&＃39;dataset/test.txt&＃39;,lazy&＃61;True) # 加载词表 vocab &＃61; load_vocab(&＃39;dict.txt&＃39;) #print(vocab)

为了将原始数据处理成模型可以读入的格式&＃xff0c;本项目将对数据作以下处理&＃xff1a;

首先使用切词&＃xff0c;每隔压缩比率rate切为一个词&＃xff0c;之后将切完后的单词映射词表中单词id。
使用paddle.io.DataLoader接口多线程异步加载数据。

其中用到了PaddleNLP中关于数据处理的API。PaddleNLP提供了许多关于NLP任务中构建有效的数据pipeline的常用API

API	简介
`paddlenlp.data.Stack`	堆叠N个具有相同shape的输入数据来构建一个batch&＃xff0c;它的输入必须具有相同的shape&＃xff0c;输出便是这些输入的堆叠组成的batch数据。
`paddlenlp.data.Pad`	堆叠N个输入数据来构建一个batch&＃xff0c;每个输入数据将会被padding到N个输入数据中最大的长度
`paddlenlp.data.Tuple`	将多个组batch的函数包装在一起

更多数据处理操作详见&＃xff1a; https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/data.md

构造dataloder

下面的create_data_loader函数用于创建运行和预测时所需要的DataLoader对象。

paddle.io.DataLoader返回一个迭代器&＃xff0c;该迭代器根据batch_sampler指定的顺序迭代返回dataset数据。异步加载数据。
batch_sampler&＃xff1a;DataLoader通过 batch_sampler 产生的mini-batch索引列表来 dataset 中索引样本并组成mini-batch
collate_fn&＃xff1a;指定如何将样本列表组合为mini-batch数据。传给它参数需要是一个callable对象&＃xff0c;需要实现对组建的batch的处理逻辑&＃xff0c;并返回每个batch的数据。在这里传入的是prepare_input函数&＃xff0c;对产生的数据进行pad操作&＃xff0c;并返回实际长度等。

# Reads data and generates mini-batches. def create_dataloader(dataset,trans_function&＃61;None,mode&＃61;&＃39;train&＃39;,batch_size&＃61;1,pad_token_id&＃61;0,batchify_fn&＃61;None):if trans_function:dataset_map &＃61; dataset.map(trans_function)# return_list 数据是否以list形式返回# collate_fn 指定如何将样本列表组合为mini-batch数据。传给它参数需要是一个callable对象&＃xff0c;需要实现对组建的batch的处理逻辑&＃xff0c;并返回每个batch的数据。在这里传入的是&＃96;prepare_input&＃96;函数&＃xff0c;对产生的数据进行pad操作&＃xff0c;并返回实际长度等。dataloader &＃61; paddle.io.DataLoader(dataset_map,return_list&＃61;True,batch_size&＃61;batch_size,collate_fn&＃61;batchify_fn)return dataloader# python中的偏函数partial&＃xff0c;把一个函数的某些参数固定住&＃xff08;也就是设置默认值&＃xff09;&＃xff0c;返回一个新的函数&＃xff0c;调用这个新函数会更简单。 trans_function &＃61; partial(convert_example,vocab&＃61;vocab,rate&＃61;rate,unk_token_id&＃61;vocab.get(unk),is_test&＃61;False)# 将读入的数据batch化处理&＃xff0c;便于模型batch化运算。 # batch中的每个句子将会padding到这个batch中的文本最大长度batch_max_seq_len。 # 当文本长度大于batch_max_seq时&＃xff0c;将会截断到batch_max_seq_len&＃xff1b;当文本长度小于batch_max_seq时&＃xff0c;将会padding补齐到batch_max_seq_len. batchify_fn &＃61; lambda samples, fn&＃61;Tuple(Pad(axis&＃61;0, pad_val&＃61;vocab[pad]), # input_idsStack(dtype&＃61;"int64"), # seq lenStack(dtype&＃61;"int64") # label ): [data for data in fn(samples)]train_loader &＃61; create_dataloader(train_ds,trans_function&＃61;trans_function,batch_size&＃61;4,mode&＃61;&＃39;train&＃39;,batchify_fn&＃61;batchify_fn) dev_loader &＃61; create_dataloader(dev_ds,trans_function&＃61;trans_function,batch_size&＃61;4,mode&＃61;&＃39;validation&＃39;,batchify_fn&＃61;batchify_fn) test_loader &＃61; create_dataloader(test_ds,trans_function&＃61;trans_function,batch_size&＃61;4,mode&＃61;&＃39;test&＃39;,batchify_fn&＃61;batchify_fn)

4 模型搭建

使用CNNEncoder搭建一个CNN模型用于进行句子建模&＃xff0c;得到句子的向量表示。

然后接一个线性变换层&＃xff0c;完成二分类任务。

paddle.nn.Embedding组建word-embedding层
ppnlp.seq2vec.CNNEncoder组建句子建模层
paddle.nn.Linear构造多分类器

model&＃61; CNNModel(len(vocab),num_classes&＃61;5,padding_idx&＃61;vocab[pad])model &＃61; paddle.Model(model)# 加载模型 #model.load(&＃39;./checkpoints/final&＃39;)

5 模型配置和训练

模型配置

optimizer &＃61; paddle.optimizer.Adam(parameters&＃61;model.parameters(), learning_rate&＃61;1e-5)loss &＃61; paddle.nn.loss.CrossEntropyLoss() metric &＃61; paddle.metric.Accuracy()model.prepare(optimizer, loss, metric)

# 设置visualdl路径 log_dir &＃61; &＃39;./visualdl&＃39; callback &＃61; paddle.callbacks.VisualDL(log_dir&＃61;log_dir)

模型训练

训练过程中会输出loss、acc等信息。这里设置了10个epoch&＃xff0c;在训练集上准确率约97%。

model.fit(train_loader, dev_loader, epochs&＃61;50, log_freq&＃61;50, save_dir&＃61;&＃39;./checkpoints&＃39;, save_freq&＃61;1, eval_freq&＃61;1, callbacks&＃61;callback) end&＃61;datetime.datetime.now() print(&＃39;Running time: %s Seconds&＃39;%(end-start))

计算模型准确率

results &＃61; model.evaluate(train_loader) print("Finally train acc: %.5f" % results[&＃39;acc&＃39;])

results &＃61; model.evaluate(dev_loader) print("Finally eval acc: %.5f" % results[&＃39;acc&＃39;])

results &＃61; model.evaluate(test_loader) print("Finally test acc: %.5f" % results[&＃39;acc&＃39;])

6 查看最终预测

label_map &＃61; {0: &＃39;benign&＃39;, 1: &＃39;adware&＃39;, 2:&＃39;banking&＃39;, 3:&＃39;riskware&＃39;, 4:&＃39;sms&＃39;} results &＃61; model.predict(test_loader, batch_size&＃61;128)predictions &＃61; [] for batch_probs in results:# 映射分类labelidx &＃61; np.argmax(batch_probs, axis&＃61;-1)idx &＃61; [idx.tolist()]labels &＃61; label_map[i] for i in idxpredictions.extend(labels)

# 看看预测数据前5个样例分类结果 for i in test_ds:print(i)breakfor idx, data in enumerate(test_ds):if idx < 10:print(type(data)) abels)

# 看看预测数据前5个样例分类结果 for i in test_ds:print(i)breakfor idx, data in enumerate(test_ds):if idx < 10:print(type(data))print(&＃39;Data: {} \t Label: {}&＃39;.format(data[0], predictions[idx]))

7 小结

CNNEncoder实在是太强了&＃xff0c;本次使用1e-5的lr训练了50epoch&＃xff0c;然后改为1e-6的lr再做了10次epoch&＃xff0c;就达到了上述所说的效果&＃xff0c;其中&＃xff0c;CNNEncoder的ngram_filter_sizes&＃61;(1, 2, 3, 4)&＃xff0c;num_filter&＃61;12就完全足够&＃xff0c;若小伙伴有兴趣可以尝试更多的num_filter&＃xff0c;来提高精度

请点击此处查看本环境基本用法.

Please click here for more detailed instructions.

推荐阅读

format
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
get
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
install
欢迎来到Netgen新时代：探索网络生成技术的无限可能

欢迎进入Netgen的新时代：探索网络生成技术的无限潜力。本文将详细介绍如何编译下载的Netgen源代码，生成Netgen程序，并提供开发所需的库nglib。此外，还将探讨Netgen在现代网络设计与仿真中的应用前景，以及其在提高网络性能和可靠性方面的关键作用。 ... [详细]

蜡笔小新 2024-10-29 03:06:21
process
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17
process
决策树在鸢尾花数据集上对不同特征组合的分类效果分析及模型性能比较

本文探讨了决策树算法在鸢尾花数据集上的应用，分析了不同特征组合对分类效果的影响，并对模型性能进行了详细比较。决策树作为一种层次化的分类方法，通过递归地划分特征空间，形成树状结构，每个节点代表一个特征判断，最终达到分类目的。研究结果表明，不同特征组合对模型性能有显著影响，为实际应用提供了重要参考。 ... [详细]

蜡笔小新 2024-10-25 19:17:40
get
基于TensorFlow的鸢尾花数据集神经网络模型深度解析

基于TensorFlow的鸢尾花数据集神经网络模型深度解析 ... [详细]

蜡笔小新 2024-10-22 11:56:51
process
Python全栈开发必备技能：全面解析与快速上手指南，五天速成全栈工程师！

本章节从商业数据分析与挖掘的角度，深入探讨了特征工程的关键技术和应用方法，包括数据预处理、特征构建、特征提取及特征选择。详细阐述了如何系统地构建用于分析的结构化数据，为全栈开发提供了坚实的基础。 ... [详细]

蜡笔小新 2024-10-30 17:39:31
tree
2019年后蚂蚁集团与拼多多面试经验详述与深度剖析

2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]

蜡笔小新 2024-10-30 17:30:06
process
宏基因组学经典文献重现（一）：利用ggplot2进行散点图可视化分析

宏基因组学经典文献重现（一）：利用ggplot2进行散点图可视化分析 ... [详细]

蜡笔小新 2024-10-30 16:50:53
get
深入解析零拷贝技术（Zerocopy）及其应用优势

零拷贝技术（Zero-copy）是Netty框架中的一个关键特性，其核心在于减少数据在操作系统内核与用户空间之间的传输次数。通过避免不必要的内存复制操作，零拷贝显著提高了数据传输的效率和性能。本文将深入探讨零拷贝的工作原理及其在实际应用中的优势，包括降低CPU负载、减少内存带宽消耗以及提高系统吞吐量等方面。 ... [详细]

蜡笔小新 2024-10-30 12:14:45
get
提升办公效率的秘诀：批量将PPT转换为PDF的专业方法

提升办公效率的秘诀：批量将PPT转换为PDF的专业方法 ... [详细]

蜡笔小新 2024-10-30 11:20:58
tree
共享单车C语言开发项目：全面分析与实现

在该项目中，参与者需结合历史使用模式和天气数据，以预测华盛顿特区自行车共享系统的租赁需求。数据分析部分首先涉及数据的收集，包括用户骑行记录和气象信息，为后续模型构建提供基础。通过深入的数据预处理和特征工程，确保数据质量和模型准确性，最终实现对自行车租赁需求的有效预测。 ... [详细]

蜡笔小新 2024-10-30 10:33:38
tree
RTMP协议的中英文规范与标准解读

本文详细解析了RTMP（实时消息传输协议）的中英文规范与标准，提供了中文版和英文版的官方文档链接，便于读者全面了解该协议的技术细节和应用场景。中文版文档地址为：，英文版文档地址为：。通过对比分析，文章深入探讨了RTMP在流媒体传输中的关键特性和优势，帮助技术人员更好地掌握和应用该协议。 ... [详细]

蜡笔小新 2024-10-25 18:56:42
tree
WPS国际版（安卓）

软件使用前需要使用邮箱登录（没有邮箱的话自行注册一个），登录后就会看到过期时间是2032年，可以看到会员版的功能还是比较多的 ... [详细]

蜡笔小新 2024-10-20 13:10:13
python
高清图解：神经网络、机器学习、数据科学一网打尽

|导|读BY：AI-Beetle完全图解人工智能、NLP、机器学习、深度学习、大数据！这份备忘单涵盖了上述领域几乎全部的知识点，并使用信息图、脑图等多种可视化方式呈现，设计精美，实 ... [详细]

蜡笔小新 2024-10-09 13:33:56

端庄的张佳迎

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章