当前位置: 开发笔记 > 数据库 > 正文

老杨谈IT运维|快速实现日志异常检测与根源分析

作者：哈喽KIKI1990_117 | 来源：互联网 | 2024-11-06 21:34

在智能运维领域，指标和日志是最常用的数据来源，能够有效反映系统的运行状况和健康状态。通过对这些数据的深入分析，可以为监控和告警系统提供关键信息，帮助快速实现日志异常检测与根源分析，提升整体运维效率。

前言：

指标和日志作为智能运维中最常见也最常接触到的两类数据来源，能够有效洞察系统行为和健康状态，为监控、告警等分析中心提供原始材料，从而以便进行后续的检测、分析、溯源、知识沉淀等动作。

在智能运维建设中，为了实现更高效的异常检测和快速根因定位，我们一直在探索能否通过算法和专家经验的融合，从而对这两类数据进行更智能化的分析。

随着银行业务的快速发展，系统体量已达成百上千，被管理对象高达几万至几十万，指标数量已然成为一个天文数字，而单个指标的异常却经常发生，如果每一个指标都要进行管理、检测，依照传统的调参方式会力所不及。

根据这类实际情况，我们在夏洛克指标解析中心里提供了用算法自动调优算法的能力，希望帮客户实现指标异常检测算法的自动化，减轻人力成本、提升运维效率。

简而言之，就是通过算法对指标历史数据特征进行学习。当异常出现时，为系统自动选择合适的检测算法对参数进行优化。

△某指标监测图

如上第一张图所示，某指标检测默认选择偏向于周期性检测的算法A，但检测出来的指标不具备周期性，大量指标偏离基带，因此会引发大量的误告。

而第二张图，经过夏洛克指标解析中心的算法自动调参优化，对算法B进行检测，同时再对参数和召回率做一个大致的预测，这样生成的算法基带更具合理性，减少系统误告的发生。

另外，在对单个指标异常进行检测的时候，对于该异常的重要级判断首先需要进行关联，即规则关联以及与其他相关指标关联判断。当然，在此之前要对指标做一定的治理，了解该指标的类别属性，如业务指标、基础架构指标、数据库指标等等，进而才能为后续的收敛、分析、建模等提供精准有效的数据支持。

一、日志治理中如何快准狠进行日志异常检测

在复杂冗余的日志治理中我们主推的是用日志聚类算法去加强智能化检测的能力。做日志聚类有个首要前提是对日志进行分词即对格式语义进行区分，然后通过文本相似度算法把不同的日志分到不同的类别上。这样的算法，可以帮助运维人员解决很多问题。如下所示。

△日志异常检测优化步骤

NO.1：自动发现全新的日志格式

对聚类后的日志进行时间序列的转计算，根据其历史特征去判别是否有全新的日志格式出现。新的日志格式代表两种情况，一种是从未出现过的故障，一种是应用变更。这样作为运维人员，能够及时处置故障或检查原有规则是否已经无效，尽早完成修复和调整。

NO.2：自动按格式分类日志

发现发生占特别小的日志，这类偶发日志中哪些值得关注？哪些不值得关注？用户不需要预先了解日志的详细含义，就可以自动过滤留下重要异常日志，经人工二次确认后及时安排维护。

NO.3：弥补传统日志关键字告警的局限

关键字告警只存在有和没有的两种情况，一般情况下某类日志发生量不会很大，如网口通断，但如果检测到某类日志突然大量增加，可能发生了严重故障，这是关键字告警无法做到的。

NO.4：日志聚类检测的定位

是传统日志平台基于关键字和规则告警的补充，并不是替代。它能够帮助运维人员更准确地找到故障问题、精准定位。

NO.5：根据日志情况评估适用性

并不是所有日志都适用于聚类检测算法，根据不同的日志类别属性进行筛选，如二进制的日志、Key Value的日志等，仍沿用原本的检测方法或其他检测方法效果会更好。

二、如何实现故障的根因定位

融合指标和日志是否可以一起为故障的根因定位提供更好的支持？这里我们分两个场景来进行实现。

1.交易指标异常分析

通过主交易指标（以下简称主指标），如交易量、延时、成功率等的异常检测告警，触发系统指标、基础架构指标和主指标之间的关联定位，同时触发交易维度和主指标之间的关联定位，了解谁是因谁是果，快速去帮助用户定位故障源头和原因。

2.日志调用链嵌码

在不改造日志的前提下，通过APM工具，如SkyWalking，将调用链信息嵌入交易日志中，实现交易日志的串联；再通过调用链的延时数据发现交易异常，自动关联交易日志，实现快速定位。

以上两种场景已在落地实践中，虽然这样的改造十分艰难，过程十分漫长，但我们相信经过双方共同协作努力，未来的运维效率一定会到非常不错的提升。而擎创夏洛克指标解析中心、日志精析中心、日智速析专家三大产品也会持续尝试新的思路方法，不断演进，为客户的运维数字化转型提供源源不断的助力。

更多运维思路和方法我们将持续更新，敬请期待~

随手关注，更新不迷路~

推荐阅读

数据库
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50
数据库
MySQL缓存机制深度解析

本文详细探讨了MySQL的缓存机制，包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术，读者可以更好地优化数据库性能。 ... [详细]

蜡笔小新 2024-12-26 15:15:06
数据库
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
数据库
技术变现之道：从日常工作中挖掘潜力

本文探讨了如何在日常工作中通过优化效率和深入研究核心技术，将技术和知识转化为实际收益。文章结合个人经验，分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法，帮助读者更好地实现技术变现。 ... [详细]

蜡笔小新 2024-12-24 15:21:23
elasticsearch
科研单位信息系统中的DevOps实践与优化

本文探讨了某科研单位通过引入云原生平台实现DevOps开发和运维一体化，显著提升了项目交付效率和产品质量。详细介绍了如何在实际项目中应用DevOps理念，解决了传统开发模式下的诸多痛点。 ... [详细]

蜡笔小新 2024-12-24 11:46:45
数据库
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
数据库
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
数据库
高效解决应用崩溃问题！友盟新版错误分析工具全面升级

友盟推出的最新版错误分析工具，专为移动开发者设计，提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态，快速发现并修复错误，显著提升应用的稳定性和用户体验。 ... [详细]

蜡笔小新 2024-12-26 14:11:47
数据库
android知识杂记（三）

andr ... [详细]

蜡笔小新 2024-12-26 13:29:32
数据库
深入理解领域驱动设计及其实践

本文探讨了领域驱动设计（DDD）的核心概念、应用场景及其实现方式，详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型，展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]

蜡笔小新 2024-12-25 18:45:55
数据库
Redis 持久化机制详解：RDB与AOF的原理、优缺点及选择策略

本文深入探讨了 Redis 的两种持久化方式——RDB 快照和 AOF 日志。详细介绍了它们的工作原理、配置方法以及各自的优缺点，帮助读者根据具体需求选择合适的持久化方案。 ... [详细]

蜡笔小新 2024-12-24 18:03:44
数据库
通过Web界面管理Linux日志的解决方案

本指南介绍了一种利用rsyslog、MariaDB和LogAnalyzer搭建集中式日志管理平台的方法，使用户可以通过Web界面查看和分析Linux系统的日志记录。此方案不仅适用于服务器环境，还提供了详细的步骤来确保系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-12-24 17:11:38
数据库
福克斯新闻数据库配置失误导致1300万条敏感记录泄露

由于数据库配置错误，福克斯新闻暴露了一个58GB的未受保护数据库，其中包含约1300万条网络内容管理记录。任何互联网用户都可以访问这些数据，引发了严重的安全风险。 ... [详细]

蜡笔小新 2024-12-22 17:57:10
elasticsearch
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
数据库
分布式架构概览与实践

本文探讨了现代分布式架构的多样性，包括高并发、多活数据中心、容器化、微服务、高可用性和弹性架构等，并介绍了与这些架构相关的重要管理技术，如DevOps、应用监控和自动化运维。文章还深入分析了分布式系统的核心概念、主要用途及类型，同时对比了单体应用与分布式服务化的优缺点。 ... [详细]

蜡笔小新 2024-12-19 15:11:28

哈喽KIKI1990_117

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章