如何玩转网络安全下的深度学习？最全的学习资料清单看这里

作者：风尚宣城_588 | 来源：互联网 | 2023-02-11 09:22

近日，外媒KDnuggets刊登了一篇机器学习与网络安全相关的资料大汇总，文中列出了相关数据源的获取途径，优秀的论文和书籍，以及丰富的教程。大部分都是作者在日常工作和学习中亲自使用

近日，外媒 KDnuggets 刊登了一篇机器学习与网络安全相关的资料大汇总，文中列出了相关数据源的获取途径，优秀的论文和书籍，以及丰富的教程。大部分都是作者在日常工作和学习中亲自使用并认为值得安利的纯干货，雷锋网现编译总结如下。

数据源

SecRepo.com 网站，该网站汇聚了大量的与机器学习和网络安全相关的数据源，并提供免费下载。据网站首页介绍，所有可用的数据源包含两个部分：一是网站方面自己整理的，二是来自第三方的。其内容包括互联网扫描数据，恶意软件源码，以及和网络安全相关的系统日志等。

论文

1. Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks

本文来自卡内基梅隆大学，分析了通用符号密码的脆弱性，以及目前常见的密码健壮性检验的各种缺点，甚至给出了他们在实验室利用神经网络算法攻破各种符号密码的具体步骤，非常强大。

2. Outside the Closed World: On Using Machine Learning for Network Intrusion Detection

本文来自加州伯克利大学，分析了利用机器学习探测网络安全的优势和劣势，并给出了一些改善这些劣势的解决方案。

3. Anomalous Payload-Based Network Intrusion Detection

通常一个互联网上的恶意请求都会在真正的恶意代码外部包装一层善意的外衣，这大大阻碍了相关探测程序的正常工作。来自哥伦比亚大学的Ke Wang和Salvatore J. Stolfo两位学者在本文中给出了一种全新的探测恶意代码中有效代码段的方法，并在实测中达到了接近100%正确率和0.1%的误报率。

4. Malicious PDF detection using metadata and structural features

当前，随着防范措施的升级，恶意代码隐藏在PDF和Word等文本文件中的例子屡见不鲜，用户防不胜防。在本文中，来自乔治梅森大学的学者介绍了一种通过机器学习技术探测恶意文本文件的技术，特别是内含恶意代码的PDF文件。

5. Adversarial support vector machine learning

来自德州大学，介绍了两种利用机器学习技术探测网络恶意攻击的分析模型，即无边界攻击模型（free-range attack model）和限制边界攻击模型（restrained attack model）。

6. Exploiting machine learning to subvert your spam filter

垃圾邮件过滤系统不算什么高新技术，但如何提升过滤的准确性一直是一个难题。本文中来自加州伯克利大学的学者们介绍了一种基于机器学习开发的垃圾邮件过滤器，为垃圾邮件的过滤提供了一种全新的实现思路。

以下论文来自 covert.io 网站，该网站的论文（或博客）数量庞大，但并不像上文提到的那些论文一样全部来自美国高校，covert.io 的文章也来自各大科技公司和研究所。

7. CAMP: Content-Agnostic Malware Protection

来自谷歌，介绍了一种名为CAMP的恶意软件保护系统，该系统能够通过对二进制可执行文件的探测，确保互联网的软件应用安全。

8. Building a Dynamic Reputation System for DNS

DNS服务器一直是互联网中非常重要的组成部分，针对目前越来越流行的DNS攻击，来自乔治亚理工学院的学者介绍了一种名为Notos的动态的域名信誉系统，可以有效防范各种针对DNS服务器的匿名的网络黑客攻击。

9. Detecting malware domains at the upper dns hierarchy

本文介绍了一种名为Kopis的新型域名检测系统，可以有效探测互联网上包含恶意攻击代码的域名，由网络安全公司Damballa、乔治亚理工学院和乔治亚大学联合研发。

10. From Throw-away Traffic To Bots – Detecting The Rise Of DGA-based Malware

本文同样来自Damballa公司和乔治亚大学，介绍了一种针对僵尸网络的新技术，该技术够探测来自动态域名系统的恶意攻击，整合了聚合和分类两类算法。

11. EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis

DNS服务器成为了越来越多黑客的攻击对象，本文介绍了一种名为EXPOSURE的域名分析系统，可以针对大批量的域名恶意访问进行探测，由Eurecom研究所、波士顿东北大学和加州大学共同研发。

12. Polonium: Tera-Scale Graph Mining for Malware Detection

本文来自网络安全公司Symantec、卡内基梅隆大学，介绍了一个名为Polonium的高效的可扩展的恶意软件探测系统。

13. Nazca: Detecting Malware Distribution in Large-Scale Networks

大量用户在现实生活中下载并安装恶意软件的行为通常包含一定的规律性。来自加州大学圣巴巴拉分校、Narus公司的学者们将这些无人问津的数据利用起来，提出了一个名为Nazca的网络安全探测系统。

14. Anagram: A Content Anomaly Detector Resistant to Mimicry Attack

来自哥伦比亚大学，介绍了一个名为Anagram的异常数据报文探测器。

书籍

讲述数据科学和机器学习在网络安全领域的应用的书籍并不多，作者只介绍了以下两本。

1. Data Mining and Machine Learning in Cybersecurity

作者是来自路易斯安那理工大学的Sumeet Dua博士和Xian Du博士，探讨了目前普遍存在的网络安全问题以及最先进的机器学习和数据挖掘解决方案。

2. Machine Learning and Data Mining for Computer Security

编者是来自乔治城大学的Marcus A. Maloof，该书系统介绍了数据挖掘和机器学习技术在计算机安全领域的最新研究成果。

雷锋网(公众号：雷锋网)注：目前两本书都没有中文版，纸质版在亚马逊上的售价都超过1000人民币，第一本有Kindle电子版。

演讲

原文作者收集了如下一些关于机器学习和网络安全的演讲，演讲者们要么是来自相关领域的公司副总、技术负责人，要么是各大高校的研究人员、博士或者教授。（雷锋网注：国内访问需要科学上网。）

1. Using Machine Learning to Support Information Security

视频系统介绍了机器学习在信息安全领域的应用，时长约1小时。

2. Defending Networks with Incomplete Information

要在限定的时间内（通常是24小时）对恶意攻击做出反应通常需要耗费巨大的人力和物力，但是如果利用机器学习的方法，首先对网络攻击进行优先级和攻击方式分类，甚至处理一些简单的套路式的攻击，则可以大大降低网络安全工程师的工作强度。本视频就介绍了这一思路的具体应用，时长约47分钟。

3. Applying Machine Learning to Network Security Monitoring

这个视频介绍了如何将机器学习应用于网络安全探测，时长约1小时。

4. Measuring the IQ of your Threat Intelligence Feed

目前互联网上存在着各种各样的网络安全的探测系统，但是用户对它们褒贬不一，究竟如何判断一个探测系统的可靠性，视频介绍了一种实用的判断方法，时长约40分钟。

5. Data-Driven Threat Intelligence: Metrics On Indicator Dissemination And Sharing

视频介绍了数据驱动下的安全情报分析，特别是和社交网络分享和传播相关的，时长约48分钟。

6. Applied Machine Learning for Data Exfil and Other Fun Topics

为了帮助网络安全相关的研究者、分析师和极客爱好者了解机器学习，以及如何将机器学习应用在网络安全中领域中，例如数据泄露，本视频做了详细介绍，时长约43分钟。

7. Secure Because Math: A Deep-Dive on ML-Based Monitoring

视频介绍了以机器学习技术为基础的互联网监控，时长约46分钟。

8. Machine Duping 101: Pwning Deep Learning Systems

44分钟教你攻克一个深度学习系统，必看系列。

9. Weaponizing Data Science for Social Engineering

视频介绍了社交网络中的恶意攻击行为和数据科学对此可能发挥的作用，时长约44分钟。

10. Defeating Machine Learning What Your Security Vendor Is Not Telling You

还是关于攻破机器学习的话题，视频介绍了如何攻破以机器学习为基础的互联网安全产品，时长约50分钟。

11. CrowdSource: Crowd Trained Machine Learning Model for Malware Capability Det

视频介绍了如何利用机器学习模型来探测互联网安全，时长约28分钟。

12. Defeating Machine Learning: Systemic Deficiencies for Detecting Malware

系统的“缺陷”也能用来探测恶意软件？这个视频用45分钟为你详细讲解利用机器学习和系统“缺陷”来探测恶意软件的方法。

13. Packet Capture Village – Theodora Titonis – How Machine Learning Finds Malware

视频介绍了如何利用机器学习探测移动端恶意软件，时长约44分钟。

14. Build an Antivirus in 5 Min – Fresh Machine Learning

视频用5分钟介绍了如何用互联网上开源的机器学习框架编写一个全新的防病毒程序。

15. Hunting for Malware with Machine Learning

视频介绍了针对企业用户的自动化恶意软件探测系统，时长约48分钟。

项目和教程

1. Click Security Data Hacking Project

该项目包含了一系列与IPython、Pandas、Scikit Learn相关的练习，包含笔记和原代码，每个练习都会故意设置一些常见的代码错误、数据库错误和逻辑错误供使用者改正。该系列教程几乎是机器学习在信息安全领域应用的必学教程。

2. Using Neural Networks to generate human readable passwords

链接中是一位大神自己编写的一个基于Keras框架和python语言的密码生成器，利用了深度神经网络原理，在保证密码安全性的同时也保证了易读性。该项目的代码已经在Github上开源，可以结合上文提到的论文《Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks》一起学习。

原代码：链接

3. Machine Learning based Password Strength Classification

该项目关于用机器学习算法判断一个已知密码的健壮性，代码已经在Github上开源。

源代码：链接

4. Using Machine Learning to Detect Malicious URLs

该项目关于如何利用机器学习探测恶意的互联网链接地址，据称可以达到98%的正确率。

源代码：链接

5. Big Data and Data Science for Security and Fraud Detection

这是一篇综述文章，文中介绍了多个国家/地区/大公司正在使用或研发的大数据分析工具和技术，这些技术结合了文本挖掘、机器学习或者网络分析，能够在早期阶段对网络安全威胁进行检测和预防。

6. Using deep learning to break a Captcha system

这是一篇博客文章，介绍了如何利用深度学习技术破解烦人的验证码系统，作者在文中给出了部分关键功能模块的源代码，并且在文末还给出了许多参考链接。

7. Data Mining for Cyber Security

这是斯坦福大学开设的一个系列公开课，关于数据挖掘在互联网安全中的应用。在链接中可以直接看到课程安排，下载到讲师演讲的文本记录、PPT，查看课后作业的题目和此前同学上传的答案，以及课后的深入阅读列表。这一课程可能是数据科学目前在网络安全领域已经公开的最好的课程之一。

其他

1. System predicts 85 percent of cyber-attacks using input from human experts

这是一篇研究成果介绍的文章，介绍了来自MIT计算机科学与人工智能实验室（CSAIL）和一家机器学习初创公司PatternEx的最新研究成果：一个名为AI2的人工智能平台，能够根据人类网络安全专家输入的数据，对当前网络可能遭到的安全威胁做出预测，正确率高达85%，超越了目前已知的其他同类预测系统。文中通过文字和视频的方式讲解了这一预测系统的基本工作原理。

2. MLSec

这是一个开源项目相关的网站，该网站聚合了一系列将机器学习技术应用于网络安全领域的开源项目，同时还开设了博客文章和社区讨论频道，帮助开发者对这些项目深入理解。

3. An Introduction to Machine Learning for Cybersecurity and Threat Hunting

这是一篇深度文章，通过与几位数据科学大牛访谈的形式，详细介绍了机器学习和网络安全的关系以及相关应用。

以上只是这位外国大牛的总结，如果你手里也有一些值得安利的干货和资源，不妨在文末留言分享出来吧！

附原文作者简介：Faizan Ahmad，Fulbright 计划大学生，目前在巴基斯坦国立计算机与新兴科学大学（National University of Computer and Emerging Sciences）学习，同时在巴基斯坦的拉合尔管理科学大学（Lahore University of Management Sciences）担任研究助理，主攻计算机和网络安全研究方向。

来源：kdnuggets

【兼职召集令！】

如果你对未来充满憧憬，喜欢探索改变世界的科技进展，look no further！

我们需要这样的你：

精通英语，对技术与产品感兴趣，关注人工智能学术动态的萝莉&萌妹子&技术宅；

文字不求妙笔生花，但希望通俗易懂；

在这里，你会收获：

一群来自天南地北、志同道合的小伙伴；

前沿学术科技动态，每天为自己充充电；

更高的生活品质，翻翻文章就能挣到零花钱；

有意向的小伙伴们把个人介绍/简历发至 guoyixin@leiphone.com，如有作品，欢迎一并附上。

雷锋网版权文章，未经授权禁止转载。详情见。

如何玩转网络安全下的深度学习？最全的学习资料清单看这里

推荐阅读

client
Android 图片上传工具类优化方案（第三部分）

本文介绍了在 Android 平台上的图片上传工具类优化方案，重点讨论了如何通过设置 `MultipartEntity` 来实现图片的高效上传。具体实现中，通过自定义 `UserUploadServiceImpl` 类，详细展示了如何构建和发送包含图片数据的 HTTP 请求。此外，还探讨了如何处理上传过程中的常见问题，如网络异常和文件格式验证，以确保上传的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-10-27 17:44:50
sum
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
list
深入解析进程及其描述符（task_struct）

进程（Process）是指计算机中程序对特定数据集的一次运行活动，是系统资源分配与调度的核心单元，构成了操作系统架构的基础。在早期以进程为中心的计算机体系结构中，进程被视为程序的执行实例，其状态和控制信息通过任务描述符（task_struct）进行管理和维护。本文将深入探讨进程的概念及其关键数据结构task_struct，解析其在操作系统中的作用和实现机制。 ... [详细]

蜡笔小新 2024-10-31 10:54:55
uri
JVM参数设置与命令行工具详解

JVM参数配置与命令行工具的深入解析旨在优化系统性能，通过合理设置JVM参数，确保在高吞吐量的前提下，有效减少垃圾回收（GC）的频率，进而降低系统停顿时间，提升服务的稳定性和响应速度。此外，本文还将详细介绍常用的JVM命令行工具，帮助开发者更好地监控和调优JVM运行状态。 ... [详细]

蜡笔小新 2024-10-30 15:49:34
uri
深入解析 Spring Cloud Eureka 的高级应用场景与优化策略

本文深入探讨了Spring Cloud Eureka在企业级应用中的高级使用场景及优化策略。首先，介绍了Eureka的安全配置，确保服务注册与发现过程的安全性。接着，分析了Eureka的健康检查机制，提高系统的稳定性和可靠性。随后，详细讨论了Eureka的各项参数调优技巧，以提升性能和响应速度。最后，阐述了如何实现Eureka的高可用性部署，保障服务的连续性和可用性。通过这些内容，开发者可以更好地理解和运用Eureka，提升微服务架构的整体效能。 ... [详细]

蜡笔小新 2024-10-30 13:07:16
list
深入解析：RKHunter与AIDE在入侵检测中的应用与优势

本文深入探讨了RKHunter与AIDE在入侵检测领域的应用及其独特优势。通过对比分析，详细阐述了这两种工具在系统完整性验证、恶意软件检测及日志文件监控等方面的技术特点和实际效果，为安全管理人员提供了有效的防护策略建议。 ... [详细]

蜡笔小新 2024-10-30 11:50:20
int
优化后的标题：校园互联新方案：10397连接教育未来

优化后的标题：校园互联新方案：10397连接教育未来 ... [详细]

蜡笔小新 2024-10-30 10:30:24
uri
NVIDIA新一代Ampere架构详解：革新与优化并存的显卡技术飞跃

NVIDIA最新推出的Ampere架构标志着显卡技术的一次重大突破，不仅在性能上实现了显著提升，还在能效比方面进行了深度优化。该架构融合了创新设计与技术改进，为用户带来更加流畅的图形处理体验，同时降低了功耗，提升了计算效率。 ... [详细]

蜡笔小新 2024-10-29 14:10:54
process
全面指南：Red Hat Enterprise Linux 6 中的 Ext3 文件系统详解

第五章详细探讨了 Red Hat Enterprise Linux 6 中的 Ext3 文件系统。5.1 节介绍了如何创建 Ext3 文件系统，包括必要的命令和步骤，以及在实际操作中可能遇到的问题和解决方案。此外，还涵盖了 Ext3 文件系统的性能优化和维护技巧，为用户提供全面的操作指南。 ... [详细]

蜡笔小新 2024-10-29 09:38:50
list
优化后的标题：部署与配置Rancher操作系统指南

RancherOS 是由 Rancher Labs 开发的一款专为 Docker 设计的轻量级 Linux 发行版，提供了一个全面的 Docker 运行环境。其引导镜像仅 20MB，非常适合在资源受限的环境中部署。本文将详细介绍如何在 ESXi 虚拟化平台上安装和配置 RancherOS，帮助用户快速搭建高效、稳定的容器化应用环境。 ... [详细]

蜡笔小新 2024-10-28 22:49:28
window
在Android平台上利用FFmpeg的Swscale组件实现YUV与RGB格式互转

本文探讨了在Android平台上利用FFmpeg的Swscale组件实现YUV与RGB格式互转的技术细节。通过详细分析Swscale的工作原理和实际应用，展示了如何在Android环境中高效地进行图像格式转换。此外，还介绍了FFmpeg的全平台编译过程，包括x264和fdk-aac的集成，并在Ubuntu系统中配置Nginx和Nginx-RTMP-Module以支持直播推流服务。这些技术的结合为音视频处理提供了强大的支持。 ... [详细]

蜡笔小新 2024-10-28 21:59:37
int
如何在Android应用中设计和实现专业的启动欢迎界面（Splash Screen）

在Android应用开发中，设计与实现一个专业的启动欢迎界面（Splash Screen）至关重要。尽管Android设计指南对使用Splash Screen的态度存在争议，但一个精心设计的启动界面不仅能提升用户体验，还能增强品牌识别度。本文将探讨如何在遵循最佳实践的同时，通过技术手段实现既美观又高效的启动欢迎界面，包括加载动画、过渡效果以及性能优化等方面。 ... [详细]

蜡笔小新 2024-10-28 19:45:09
list
深入RTOS实践，面对原子操作提问竟感困惑

在实时操作系统（RTOS）的实践中，尽管已经积累了丰富的经验，但在面对原子操作的具体问题时，仍感到困惑。本文将深入探讨RTOS中的原子操作机制，分析其在多任务环境下的重要性和实现方式，并结合实际案例解析常见的问题及解决方案，帮助读者更好地理解和应用这一关键技术。 ... [详细]

蜡笔小新 2024-10-28 13:40:08
uri
在 Tomcat 上部署 Jenkins 实现持续集成环境搭建

本文介绍了如何在Tomcat服务器上部署Jenkins以构建持续集成环境。首先，需下载并解压Tomcat压缩包，例如 `apache-tomcat-8.5.37.tar.gz`。接着，为Tomcat创建一个管理用户，并对相关文件目录进行权限配置，确保Jenkins能够顺利运行于Tomcat之上。此外，还详细阐述了环境配置、服务启动及基本的故障排查技巧，为用户提供了一套完整的部署指南。 ... [详细]

蜡笔小新 2024-10-28 08:12:42
uri
ZOJ 题目集 1392：史上最难问题挑战

经过一个漫长的暑假，这或许是我人生中最后一次享受如此悠长的假期了。今天回到实验室，首先在ZOJ平台上挑选了一些较为基础的题目进行练习，以便重新找回编程的感觉。通过这些简单的题目，我不仅巩固了基础知识，还为接下来的挑战做好了准备。直接上手编写代码，感觉状态逐渐恢复。 ... [详细]

蜡笔小新 2024-10-27 21:07:11

风尚宣城_588

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章