专家知识在AIOPS中的作用

作者：吸毒草的秘密 | 来源：互联网 | 2023-09-18 17:53

前两天写了一篇关于AIOPS演进路线的文章，有些朋友对AIOPS为什么还要先走ALPH

前两天写了一篇关于AIOPS演进路线的文章，有些朋友对AIOPS为什么还要先走ALPHAGO 1.0的道路，学习运维专家的经验，而不能直接采用更为先进的ALPHAGO 2.0的模式,直接采用AI自己的数据去训练算法。

其实如果没有ALPHAGO 1.0的基础，ALPHAGO 2.0也是不能凭空发展出来的。ALPHAGO 1.0已经具有相当高的水平了，连人类的顶级选手李世石都仅能侥幸赢下一局。因此可以说ALPHAGO 2.0的起点已经是相当高的了。

对于AIOPS也是如此，这三十年来，人类已经积累了十分丰富的运维经验，其复杂度已经不亚于围棋了。以数据库IO分析为例，老白先展示一个专家梳理出来的数据库IO分析的诊断路径图。

这张图仅仅列出了一部分诊断路径，并不完整，可以看出这张图已经是十分的复杂了。如果不依赖专家经验的梳理，仅仅通过异常检测，要想在一两年内收集齐这张诊断路径图中的所有的故障样本就已经是一个几乎不可能完成的任务了。更不要说每条诊断路径都需要至少几十个甚至几百个样本才能完成较为有效的模型训练。我曾经和不少做AIOPS的专家讨论过这个问题，有些人比较实在，看到这张图后立马就说，这么复杂的分析，我想是做不到的。还有一些嘴硬的，说没任何问题，你把数据给我收集齐了，我们立马能做出来。虽然老白收集了不少数据，但是想要收集齐所有的数据，自认为是做不到的，于是也只能姑且认为他们能做到了。

也有人和老白说，那些指标异常检测确实复杂，不过日志分析就简单多了。于是老白又拿出一张图让他试试。

ORA-603这个ORACLE的错误号，其可能的问题根因有几十个，老白这张图中仅仅是列出了其中的一部分。我让他们评估一下训练这个模型大概要花多少钱。他比较实在，直接说这种模型训练不出来。不过随后又说，日志监测不是这么做的，不是通过单一的错误日志去分析问题，是通过一定时期内的长时间的日志的学习，来形成异常检测的算法的。因为系统中99%以上的时间里系统都是正常的，只有不到1%的日志状态是异常的。所以只要有足够的标注，就能够形成有效的模型。我又问他大概需要标注多少样本才能达到他所说的目标，开始他说大约几千，我就给他算了笔帐，就按1000算吧，如果一个客户每10天出一次故障，大约一年可以获得40个样本，他所需要的样本需要积累25年。对于10天出一次故障的运维单位，它的领导恐怕早就干不下去了吧。算了这笔账后他说日志异常检测不是这么做的，不是通过单一运维对象的日志去做分析，而是通过综合的日志序列，进行综合性的计算，从而形成模型，用于预测。

这似乎有点道理，不过问题又来了，通过综合性的日志分析，形成异常发现后，我们如何去确认这个问题发现是否准确呢？如何进一步定位问题出在哪里呢？他十分自信的说，哪个服务宕机了，哪个数据库无法访问了，可以很快就定位了啊。我总觉得这句话有点问题，哪个数据库无法访问，哪台服务器宕机了，用传统的方法不是很容易就发现了吗？还需要这么兴师动众的用AIOPS的算法来解决呢？

实际上，老白是在和他开玩笑。通过日志的综合分析进行故障预测与故障定位是肯定有一定的效果的，但是这里有一个十分重要的要素，就是必须有专家的参与，否则只能是一个实验室里的玩具，无法真正的成为生产力。当异常检测发现了疑点，需要有专家来进行确认，对发现进行标注，形成有效的训练样本，这种样本只有积累到一定的数量，才能训练出有效的模型。对于某一个企业来说，要积累足够的样本是十分困难的，最好的模式是能够建立一个行业案例库和公共案例库，跨企业，跨行业积累相关的样本，这样才有可能加快这个过程。

ALPHAGO的成功是在上千年人类对围棋理论和棋谱的积累的基础上的，所以能够在数年时间里完成对人类高手的碾压。AIOPS要想碾压人类的专家，也必然要经历这个过程。仅仅是一批软件看法和算法的高手要构建出一个能够超越人类专家的AIOPS系统，还是任重道远的。只有越来越多的人能够像老白一样来梳理十年二十年来的运维经验，并把这些经验分享出来，才能够缩短人工智能的成长时间，更快的让AIOPS产生真正的实战效用。在这个新春即将来临的时刻，写这段文字与从事AIOPS的朋友们共勉。

推荐阅读

case
从Oracle安全移植到国产达梦数据库的DBA实践与攻略

随着我国对信息安全和自主可控技术的重视，国产数据库在党政机关、军队和大型央企等行业中得到了快速应用。本文介绍了如何降低从Oracle到国产达梦数据库的技术门槛，保障用户现有业务系统投资。具体包括分析待移植系统、确定移植对象、数据迁移、PL/SQL移植、校验移植结果以及应用系统的测试和优化等步骤。同时提供了移植攻略，包括待移植系统分析和准备移植环境的方法。通过本文的实践与攻略，DBA可以更好地完成Oracle安全移植到国产达梦数据库的工作。 ... [详细]

蜡笔小新 2023-12-11 13:58:08
byte
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
io
如何限制php数据库链接数和连接超时时间？

本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目，以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数，以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]

蜡笔小新 2023-12-14 14:06:10
usb
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
bash
Hyperledger Fabric外部链码构建与运行的开发笔记

本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识，包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性，外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍，读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行，并且不再受限于特定的语言和部署环境。 ... [详细]

蜡笔小新 2023-12-13 21:47:39
io
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32
sum
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
version
问题2：重新命名或者移动数据文件、日志文件到新的位置

本文讨论了在数据库打开和关闭状态下，重新命名或移动数据文件和日志文件的情况。针对性能和维护原因，需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况，以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]

蜡笔小新 2023-12-13 13:02:24
go
Linux如何安装Mongodb的详细步骤和注意事项

本文介绍了Linux如何安装Mongodb的详细步骤和注意事项，同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库，适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作，能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]

蜡笔小新 2023-12-12 21:54:15
io
CentOS 7部署KVM虚拟化环境之一架构介绍

本文介绍了CentOS 7部署KVM虚拟化环境的架构，详细解释了虚拟化技术的概念和原理，包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]

蜡笔小新 2023-12-12 21:38:57
sum
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
version
mac php错误日志配置方法及错误级别修改

本文介绍了在mac环境下配置php错误日志的方法，包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别，以及相应的错误级别参考链接。 ... [详细]

蜡笔小新 2023-12-12 11:59:08
byte
Oracle 11g物理Active Data Guard实时查询（Realtime query）特性

在Oracle11g以前版本中的的DataGuard物理备用数据库，可以以只读的方式打开数据库，但此时MediaRecovery利用日志进行数据同步的过 ... [详细]

蜡笔小新 2023-12-11 15:49:10
byte
在虚拟服务器上安装oracle 10g客户端的问题及解决方法

本文讨论了在VMWARE5.1的虚拟服务器Windows Server 2008R2上安装oracle 10g客户端时出现的问题，并提供了解决方法。错误日志显示了异常访问违例，通过分析日志中的问题帧，找到了解决问题的线索。文章详细介绍了解决方法，帮助读者顺利安装oracle 10g客户端。 ... [详细]

蜡笔小新 2023-12-11 13:08:10
io
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52

吸毒草的秘密

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章