热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于gan的子域名生成_【智能运维】基于生成对抗主动学习的无监督异常检测...

论文题目:GenerativeAdversarialActiveLearningforUnsupervisedOutlierDetection(2019
df06e31c197af0979898e7ba3e57707c.png

论文题目:Generative Adversarial Active Learning for Unsupervised Outlier Detection(2019.03被TKDE录用)

论文代码:

https://github.com/leibinghe/GAAL-based-outlier-detection​github.com

本文中的两种算法:单目标生成对抗主动学习多目标生成对抗主动学习在实现上并不复杂,是通用的基于向量数据的异常检测算法,已经被集成在了异常检测的 python 包 pyod 中:

https://github.com/yzhao062/pyod​github.com

1 背景

异常就是和其他数据的特征不一致的数据。如何准确、快速的检测出这些异常数据在许多实际应用(如入侵检测、欺诈检测、紧急事件检测等)中扮演着重要的角色。

现有的异常检测方法中,基于统计的模型,基于回归的模型,基于聚类的模型,基于重建的模型等,需要假设正常数据的生成机制。然而,缺乏数据特征的先验信息会导致无法选择合适的模型和参数。无参化的方法,如基于亲密度的模型(kNN, LOF 等)不需要考虑数据的分布。但是,随着数据的维度和数据量的增加,模型的效率和有效性会大打折扣。

因此,本文通过人工生成潜在的异常数据,提出了无监督的异常检测算法。(本文有一个假设,原始的数据都是正常的数据。)

本文方法最直观的理解:利用生成对抗的思想,生成器从随机噪声中生成异常数据,判别器判别数据是生成的异常数据还是原始的正常数据。生成器的目标是生成尽可能和正常数据相似的数据,让判别器无法识别出;判别器的目标是尽可能判别出真实数据和异常数据。两者进行博弈,最终达到平衡。

在最后的异常检测过程中,对于给定的一条数据,只需要利用判别器判别出是正常数据还是异常数据,相当于二分类。

本文有两种生成器,单一目标的生成器多目标的生成器,对应文中的两种算法,具体的设计原理接下来讲解。

2 方法

2.1 将异常检测看作分类问题

给定一个数据集,每个数据会有一个标签表示正常/异常(正常=1,异常=0)。异常检测就是找到一个边界,将异常数据和正常数据分离开。可以通过最小化该目标函数来得到最优边界:

6390b3ff06e81576eab32afba5204c75.png
表示分错的代价,
为打分函数。需要找到最优的打分函数
来最小化目标函数。

因此,我们可以假设异常数据周围的密度低于正常数据的密度。如下图(a)所示。

e3d98071bc75b6bd808b2bd6929a107b.png

基于上诉假设,可以从一个分布

中生成一些异常数据。然后定义一个相对密度函数
和阈值
,判断数据是否为异常:
d30d549d4b20268513d0b633ce1e3069.png

但是计算相对密度需要大量的计算资源,可以将密度计算替换为分类。具体过程为:从一个分布

中生成一些异常数据,然后直接训练一个分类器,只需要让这个分类器的输出满足基于密度的假设。
b5c2253c9a3bed6252c64b115ef090ec.png

然而,随着数据维度的增加,生成有限的异常数据,这些异常数据的密度可能趋近于0,导致分类器无法得到正确的边界。如下图所示:

111cc17013e1af05144217527cb90173.png

2.2 基于单目标生成对抗主动学习的异常检测

064d2069107b428161f9932d81e09c4a.png

通过生成对抗网络能够生成足够多的异常数据,从而获得正确的边界。

如上图所示,生成器从随机噪声中生成异常数据,判别器判别数据是生成的异常数据还是原始的正常数据。

不要忘了前提假设:异常数据周围的密度低于正常数据的密度。那么如何能够保证这个假设成立呢?需要考虑如下两点:

  • 如何设计生成器的网络结构和初始化参数。防止生成的数据过于集中。
  • 多少次迭代次数能保证判别器的性能。

2.3 基于多目标生成对抗主动学习的异常检测

38eb980c09c2d40fc97aeb15c9188bb5.png

多目前和单目标的区别在于:多目标有 k 个子生成器和一个判别器。

其核心思想:让每一个子生成器从原始数据的子集中生成数据,这样多个生成器可以生成更加多样性的异常数据

具体过程如下:

(1)根据原始数据的相似性,将原始数据分为 k 个子集

(2)对于每一个子集,根据其对应的生成器,生成异常数据,将子集的真实数据和异常数据送给判别器去判别。



推荐阅读
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • Centos7.6安装Gitlab教程及注意事项
    本文介绍了在Centos7.6系统下安装Gitlab的详细教程,并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时,还强调了使用阿里云服务器时的特殊配置需求,以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • 现在比较流行使用静态网站生成器来搭建网站,博客产品着陆页微信转发页面等。但每次都需要对服务器进行配置,也是一个重复但繁琐的工作。使用DockerWeb,只需5分钟就能搭建一个基于D ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 使用在线工具jsonschema2pojo根据json生成java对象
    本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具,用户只需将json字符串复制到输入框中,即可自动将其转换成java对象。该工具还能解析列表式的json数据,并将嵌套在内层的对象也解析出来。本文以请求github的api为例,展示了使用该工具的步骤和效果。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 【MicroServices】【Arduino】装修甲醛检测,ArduinoDart甲醛、PM2.5、温湿度、光照传感器等,数据记录于SD卡,Python数据显示,UI5前台,微服务后台……
    这篇文章介绍了一个基于Arduino的装修甲醛检测项目,使用了ArduinoDart甲醛、PM2.5、温湿度、光照传感器等硬件,并将数据记录于SD卡,使用Python进行数据显示,使用UI5进行前台设计,使用微服务进行后台开发。该项目还在不断更新中,有兴趣的可以关注作者的博客和GitHub。 ... [详细]
author-avatar
狮子胯下
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有