热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

多维度监控:智能监控的数据基础

前言以组件监控为例,介绍监控产品的路线图运维监控系统的作用不言而喻,贯穿运维的5项职能:发布、变更、故障处理、体验优化、日常需求,保障上述职能的服务可用性。从大数据的特性(数据

前言

以组件监控为例,介绍监控产品的路线图


运维监控系统的作用不言而喻,贯穿运维的5项职能:发布、变更、故障处理、体验优化、日常需求,保障上述职能的服务可用性。

从大数据的特性(数据量大、多维度、完备性)[1]来看,运维监控系统的建设可以分为2个阶段:多维度监控(积累数据) 和 智能监控(使用数据),通过多维度监控实现出了故障能看、能查,智能监控提前发现风险、找出故障根源。

在这里插入图片描述

组件监控是多维度监控体系的第3层,主要对常见开源组件、中间件的性能指标做监控,比如Nginx的性能指标有Active Connections(当前客户端连接数)、Waiting(等待中的连接数)等,Oracle的性能指标有 SQL硬解析率、表空间使用率等。

通过采集组件的关键性能指标,实时获悉组件的运行状况,提前发现问题,而不是仅监控进程或端口是否存活(进程或端口都正常时,不代表可以提供服务)。

本文以建设组件监控为例,从多维度监控的组成、监控产品要解决的3个问题、组件监控的技术选型、云端下发采集器配置、社区的开放能力来介绍监控产品设计路线图。




1. 多维度监控的组成

从用户访问链路的角度,将监控指标的维度分为用户层、应用层、组件层、主机层、网络层

多维度监控的组成

用户层,通过服务拨测等方式模拟用户的访问行为,不用等用户投诉上门;应用层,通过调用链等方式追踪应用的调用状态;其他三层较为容易理解就不做介绍了。

通过这5层+其他关键指标(如日志、业务KPI曲线等),构筑监控系统的多维度监控能力,为第二阶段的智能监控提供数据支撑




2. 监控产品要解决的3个问题

除了获取关键的性能指标外,监控产品还需要解决3个问题, 退可做故障关联分析,进可建设运维的智能化场景


2.1 对IT系统的自主掌控能力

由于对IT系统自主掌控能力的缺乏,"正在更换IT系统" 和 "走向更换IT系统的路上,是部分中、大型企业在"互联网+"浪潮下积极拥抱互联网的现状。

鉴于这种情况,部分行业已明确已表明[2][3],必须加大对IT系统自主掌控的能力。

于是,产品设计时,需考虑能让监控系统的使用者可以参与到监控系统的开发或部分开发.


2.2 拒绝再造一个烟囱

竖井式的结构估计是大部分企业构建IT系统的现状,每个系统间毫无关联,每买一套系统等于多构建一个信息孤岛,附加值极低。

在这里插入图片描述


如果想实现退可做故障关联分析,进可建设运维的智能化场景,可在基于PaaS的运维平台上建设[4],通过iPaaS打通企业内部的各个IT运营系统。



2.3 组件繁多,完全自研不太现实

行业中应用的组件种类繁多,从数据库、存储、HTTP服务到消息队列等共100+,完全自研肯定不现实。

好的办法是自研核心、行业支撑不好的组件,剩下的借助行业多年积累的能力,少造一点轮子,为社会省点电。




3. 组件监控的技术选型

在2.3中提到自研 + 第3方开源采集器的思路,这里以开源采集器Prometheus Exporter为例。

在这里插入图片描述

Prometheus Exporter的社区很活跃[5],支持100+ 常见开源组件,部分大厂甚至专门编写对应的Prometheus Exporter,比如Oracle编写的Weblogic Exporter,IBM编写的IBM MQ exporter,k8s、etcd甚至内置基于Exporter规范的metrics。

按照这种方案,只需要做一个协议转换即可把指标入库

对接行业采集器 简易时序图




4. 体验优化:云端下发采集器配置

解决基础需求后,需要马上来优化下体验。

把采集器或配置下发至被监控的主机上,一般需要手动部署或使用第三方的工具(如Ansible)。

切换多个系统来完成一件事情,体验非常不好。

有一个优化方案,通过iPaaS使用管控平台层的文件分发和命令执行能力[4],让用户在一个页面完成配置流程,提升效率。

蓝鲸体系架构图




5. 社区的开放能力

在满足基础功能和优化产品体验后,接下来考虑产品的可扩展性

先解决用户一键导入自研组件的便利性,接下来提供一个交流平台让社区用户可以自由分享。

在获得社区开源能力的同时,也需要反哺社区




6. 结尾

属于基础监控范围的多维度监控相对智能监控来说,不太光鲜,但它是智能监控的数据基础,没有多维度监控提供的数据,无法落地故障预测、故障根因分析等智能监控场景。

传统企业或互联网企业在拥抱互联网变革时,需冷静思考,按照路线图逐步实现。




7. 参考文献

[1] 吴军. 智能时代:大数据与智能革命重新定义未来 [M]. 北京:中信出版集团,2016-8.

[2] 中国人民银行. 中国金融业信息技术“十三五” 发展规划 [EB/OL]. 2017.06

[3] 中国银监会.中国银行业信息科技“十三五”发展规划监管指导意见(征求意见稿)[EB/OL]. 2016.07.15

[4] 中国通信标准化协会.云计算运维平台参考框架及技术要求 [EB/OL]. 2017.11.16

[5] Prometheus. EXPORTERS AND INTEGRATIONS [EB/OL].




蓝鲸智云

本文由腾讯蓝鲸智云编辑发布,腾讯蓝鲸智云(简称蓝鲸)软件体系是一套基于PaaS的技术解决方案,致力于打造行业领先的一站式自动化运维平台。目前已经推出社区版、企业版,欢迎体验。



  • 官网:https://bk.tencent.com/

  • 下载链接:https://bk.tencent.com/download/

  • 社区:https://bk.tencent.com/s-mart/community/question



推荐阅读
  • 对mysql的总结与反思_一次DB故障引起的反思和MySQL Operator选型
    前言在一次数据库故障后,我们发现业务库会根据业务的等级会划分多个MySQL实例,许多业务库会同时属于一个MySQL实例,当一个库引发问题后 ... [详细]
  • 起底▍Spring Boot/Cloud背后豪华的研发团队 ——独角兽公司Pivotal
    作者|纯洁的微笑编辑|梅花鹿36大数据已获得授权转载我们刚开始学习SpringBoot的时候肯定都会看到这么一句话:SpringBoot是由Pivotal团队提供的全 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • 在重复造轮子的情况下用ProxyServlet反向代理来减少工作量
    像不少公司内部不同团队都会自己研发自己工具产品,当各个产品逐渐成熟,到达了一定的发展瓶颈,同时每个产品都有着自己的入口,用户 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • RouterOS 5.16软路由安装图解教程
    本文介绍了如何安装RouterOS 5.16软路由系统,包括系统要求、安装步骤和登录方式。同时提供了详细的图解教程,方便读者进行操作。 ... [详细]
  • 2022年的风口:你看不起的行业,真的很挣钱!
    本文介绍了2022年的风口,探讨了一份稳定的副业收入对于普通人增加收入的重要性,以及如何抓住风口来实现赚钱的目标。文章指出,拼命工作并不一定能让人有钱,而是需要顺应时代的方向。 ... [详细]
  • 从Oracle安全移植到国产达梦数据库的DBA实践与攻略
    随着我国对信息安全和自主可控技术的重视,国产数据库在党政机关、军队和大型央企等行业中得到了快速应用。本文介绍了如何降低从Oracle到国产达梦数据库的技术门槛,保障用户现有业务系统投资。具体包括分析待移植系统、确定移植对象、数据迁移、PL/SQL移植、校验移植结果以及应用系统的测试和优化等步骤。同时提供了移植攻略,包括待移植系统分析和准备移植环境的方法。通过本文的实践与攻略,DBA可以更好地完成Oracle安全移植到国产达梦数据库的工作。 ... [详细]
  • 如何利用 Myflash 解析 binlog ?
    本文主要介绍了对Myflash的测试,从准备测试环境到利用Myflash解析binl ... [详细]
  • 本文介绍了禅道作为一款国产开源免费的测试管理工具的特点和功能,并提供了禅道的搭建和调试方法。禅道是一款B/S结构的项目管理工具,可以实现组织管理、后台管理、产品管理、项目管理和测试管理等功能。同时,本文还介绍了其他软件测试相关工具,如功能自动化工具和性能自动化工具,以及白盒测试工具的使用。通过本文的阅读,读者可以了解禅道的基本使用方法和优势,从而更好地进行测试管理工作。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
author-avatar
ChinaSpecial
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有