一线运维各场景监控详解（2022最新汇总）

作者：mobiledu2502852923 | 来源：互联网 | 2023-09-16 15:08

一线运维各场景监控详解

前言

监控作为每个公司IT系统中必备的功能，伴随着计算机的诞生就已经开始出现，经过几十年的发展，现在的IT技术和架构已经出现了非常大的变化。开发模式、系统架构、部署模式、基础设施都已经经历过多次的架构变迁，目前主流以微服务、容器化、云、DevOps这些技术为主。

伴随着这些架构的变迁，带来的影响是整个的系统也更加的复杂、开发依赖更多的人和部门、部署模式和运行环境也更加动态和不确定，因此IT行业也已经到了需要更加系统化、体系化进行观测的这一过程。对于监控系统，也在经历着巨大的变革，朝向云原生、数据融合、智能等方向演进。

监控系统发展历程

回顾整个IT监控的发展过程，我个人认为可分为4个阶段，分别是Unix时代、数据中心时代、分布式时代以及云原生时代：

Unix时代：随着Unix、Linux的流行，我们才有了真正意义上的IT系统，在80、90年代的时候，应用通常都是单机部署，而且很简单。为了能够定位单机应用的一些问题，Unix中增加了很多Metrics，例如CPU、内存、IO的使用情况。同时为了更快速的获取这些指标，Unix/Linux中提供了很多命令行工具，例如top、vmstat、iostat等，同时为使用桌面系统的人提供了很多图形化的工具来看问题，这也是IT监控中最早的折线图
应用。在这一阶段，大家对于性能、用户体验等关注不是高，基本上只在乎可用性，也就是服务是否能够Work。
数据中心
时代：在90年代，越来越多的公司开始搭建自己的数据中心，少到几台，多到成百上千台。这个时候出现了专门的IT运维人员，为了更好的管理这些机器，开发了SNMP（Simple Network Management Protocol）协议，用于管理和监控数据中心中每台机器的状态。这个时候的监控架构主要还是单机的方式来实现，通过SNMP协议，来监控各个主机的网络和硬件信息。这一阶段也出现了跨主机的应用以及提供对外服务的Web类应用，监控系统也会部分关注网络延迟，但并不是实际的用户请求延迟。
分布式时代：在21世纪后，互联网开始流行，应用场景也越来越广，单机已经逐渐承受不住日益上涨的请求量，因此分层式的分布式架构开始逐渐流行。而监控系统的分层模式也划分的逐渐明显，例如主机监控、网络监控、中间件监控、应用监控等，其中应用监控是新出现的范畴，对于应用监控要求不仅关注应用可用性问题，也要监控和解决性能问题。这一阶段监控系统的架构也变为分布式，后端会有多台机器多个模块组成，例如数据处理、存储、告警等，其中每个模块也可能是分布式的，例如分布式的流式处理、分布式的数据库等。
云原生时代：随着云计算、容器化技术的成熟，很多公司开始采用容器化、微服务的技术来开发应用，应用的部署环境也会选择公有云或者私有云
的方式。在云原生的场景下，虚拟化会更加彻底、环境动态性更强，传统的一些监控方式将不再适合，因此需要有能够对接Kubernetes、微服务、云上资源的监控系统。而监控目的也更加向上，关注用户实际的体验和问题排查的效率，因此除了采集更多的监控信息外，也需要能够和其他的可观测数据（例如Logs/Traces）进行关联分析来快速定位问题，同时也引入AI的技术来进行自动化的异常发现、定位与修复。

云原生时代的监控方案

云原生时代的监控方案，除了监控方案本身需要的进步外，监控的能力和效果也必须提升一个阶层，这里我们总结起来，需要以下几个特性：

范围广：从基础设施、容器/K8s、云厂商、中间件、数据库等都能够支持
统一视图：各种不同层级的数据都能有统一的入口和视图来查看
统一告警：告警是监控的重要组成部分，告警也必须能够实现统一的管理，并且具备智能降噪、动态值班表、告警合并/路由等一些高级特性，降低管理和使用成本
智能：企业的IT系统中所涉及的组件数量庞大，静态的规则告警很难适用，因此必须要有一些启发式的AIOps时序异常检测方式，能够自动发现异常的曲线并告警
数据融合分析：可以便捷的和Trace、Log、Event等其他可观测数据有效的进行关联分析，便于快速定位和解决问题

SLS全栈监控

SLS作为阿里可观测性数据引擎，具备可观测数据日志、指标、分布式链路追踪、事件等的一站式采集和存储。为了便于用户快速接入和监控业务系统，SLS提供了全栈监控的APP，将各类监控数据汇总到一个实例中进行统一的管理和监控。全栈监控基于SLS的监控数据采集、存储、分析、可视化、告警、AIOps等能力构建，详细功能如下：

实时监控各类系统，包括主机监控、Kubernetes监控、数据库监控、中间件
监控等。
支持ECS、K8s一键安装，支持图形化的监控配置管理，无需登录主机配置采集监控项。
运维老司机多年经验的报表总结，包括资源总览、水位监控、热点分析、详细指标等数十个报表。
支持自定义的分析，支持包括PromQL、SQL92等多种分析语法。
支持对接AIOps指标巡检，利用机器学习技术自动发现异常指标。
支持自定义告警配置，告警通知直接对接消息中心、短信、邮件、语音（电话）、钉钉，并支持对接自定义WebHook。

全栈监控功能概览

主机监控

仪表盘	说明
资源总览	用于实时可视化展示主机配置信息和指标信息的总体情况，包括CPU核数、磁盘总空间、CPU平均使用率、内存平均使用率等。
主机列表	用于实时可视化展示每台主机的配置信息和指标信息，包括CPU核数、内存、CPU使用率、内存使用率等。
热点分析	用于实时可视化热点机器的CPU、内存等资源使用情况，包括CPU热点指标分布、内存热点指标分布、Top CPU使用率、Top 内存使用率等。
单机指标-简	用于实时可视化展示主机的CPU、内存等资源的使用趋势，包括CPU使用率、磁盘空间使用率、内存使用率等。
单机指标-详	用于实时可视化展示主机的CPU、内存等资源处于不同状态的使用趋势，包括CPU（处于Total、System、User、IOWait状态的CPU使用趋势）、内存（处于Total、Availableused、Used状态的内存使用趋势）等。

Kubernetes监控

仪表盘	说明
资源总览	用于实时可视化展示Kubernetes中资源的使用情况，包括Pod、Host、Service、Deployment等。
水位监控	用于实时可视化展示Kubernetes中资源的水位情况，包括Pod运行数、CPU总数、文件系统使用量等。
运行时监控	用于实时可视化展示Kubernetes中处于运行状态的资源信息，包括Deployment运行数量、Daemonset运行数量等。
核心组件监控	用于实时可视化展示Kubernetes中核心组件的相关数据，包括ETCD对象数、ETCD请求QPS等。
Node列表	用于实时可视化展示Node的整体情况以及每个Node的配置信息和指标信息，包括Node总数、运行中的Pod总数等。
Node指标	用于实时可视化展示Node的指标信息，包括可申请Pod数量、CPU使用率等。
Pod列表	用于实时可视化展示Pod的整体情况以及每个Pod的配置信息和指标信息，包括可申请的Pod总数等。
Pod指标	用于实时可视化展示Pod的指标信息，包括Pod基本信息、容器基础信息等。
Deployment列表	用于实时可视化展示每个Deployment的配置信息和指标信息，包括Deployment所属命名空间、集群等。
Deployment指标	用于实时可视化展示Deployment的指标信息，包括CPU Limit使用率、内存Limit使用率等。
StatefulSet列表	用于实时可视化展示每个StatefulSet的配置信息和指标信息，包括StatefulSet所属命名空间、集群等。
StatefulSet指标	用于实时可视化展示StatefulSet的指标信息，包括CPU Limit使用率、内存Limit使用率等。
DaemonSet列表	用于实时可视化展示每个DaemonSet的配置信息和指标信息，包括DaemonSet所属命名空间、集群等。
DaemonSet指标	用于实时可视化展示DaemonSet的指标信息，包括CPU Limit使用率、内存Limit使用率等。

数据库监控

仪表盘	说明
MySQL监控	用于实时可视化展示MySQL数据库中监控指标，包括启动时间、Query执行次数、连接数等。
Redis监控	用于实时可视化展示Redis数据库中的监控指标，包括开启集群实例个数、Redis运行时间、连接的客户端数量等。
Elasticsearch监控	用于实时可视化展示Elasticsearch中的监控指标，包括Cluster health、Nodes等。
Clickhouse监控	用于实时可视化展示Clickhouse数据库中的监控指标，包括Query、Merge等。
MongoDB监控	用于实时可视化展示MongoDB数据库中的监控指标，包括Available Connections、Query Operations等。

中间件监控

仪表盘	说明
JVM监控	用于实时可视化展示JVM中的监控指标，包括进程运行时长、总内存、堆内存、CPU使用率等。
Nginx监控	用于实时可视化展示Nginx中的监控指标，包括Processed connections、QPS等。
Tomcat监控	用于实时可视化展示Tomcat中的监控指标，包括进程运行时长、QPS、错误数、CPU使用率等。
Kafka监控	用于实时可视化展示Kafka中的监控指标，包括Controller状态、总Topic数、每秒消息数量等。
NVIDIA GPU监控	用于实时可视化展示NVIDIA GPU中的监控指标，包括GPU Utilization、Memory Utilization等。

Coming soon

现阶段全栈监控提供了主机监控、K8s监控、数据库监控、中间件监控，后续横向和纵向的功能扩展也即将和大家见面，例如：

云资源监控，包括阿里云上各类监控以及AWS、Azure等其他云上的监控指标
主机增加更多的功能，例如进程级别监控、内核的监控、进程/内核Profile能力等
K8s增加性能、变更以及服务拓扑等监控能力；数据库增加诊断、Plan监控等；中间件支持更多的种类
增加和用户体验以及应用相关的监控能力，例如拨测、前端监控、移动端监控等

作者：阿里云日志服务
链接：https://www.zhihu.com/question/27464246/answer/2425864444
来源：知乎

小编有话说

➤推荐服务：

向下滑动查看更多

点击【IT面试精选】查看全网最权威的一线大厂面试真题及面试经验，每天更新哦!

点击【IT路边社】查看实时更新的IT新闻资讯

点击【互联网资料存储站】获取全网最全运维流程文档、表格、脚本、架构、等保资料等
点击【安全加固】获取最新安全加固脚本

点击【一键iptables脚本】获取iptables自动设置脚本

回复【加群】群满啦!~添加波哥微信拉您进群

推荐阅读

web
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
web
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
io
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
install
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
io
小王详解：内部网络中最易理解的NAT原理剖析，挑战你的认知极限

小王详解：内部网络中最易理解的NAT原理剖析，挑战你的认知极限 ... [详细]

蜡笔小新 2024-11-07 15:11:42
io
技术日志：Ansible的安装及模块管理详解

技术日志：Ansible的安装及模块管理详解 ... [详细]

蜡笔小新 2024-11-03 15:01:47
io
如何在Oracle ASM_Diskgroup中重命名现有磁盘

如何在Oracle ASM_Diskgroup中重命名现有磁盘 ... [详细]

蜡笔小新 2024-11-01 12:48:31
web
推荐6款高效JavaWEB应用开发工具及其实用功能

本文推荐了六款高效的Java Web应用开发工具，并详细介绍了它们的实用功能。其中，分布式敏捷开发系统架构“zheng”项目，基于Spring、Spring MVC和MyBatis技术栈，提供了完整的分布式敏捷开发解决方案，支持快速构建高性能的企业级应用。此外，该工具还集成了多种中间件和服务，进一步提升了开发效率和系统的可维护性。 ... [详细]

蜡笔小新 2024-11-01 10:52:05
io
从无到有，构建个人专属的操作系统解决方案

操作系统（OS）被誉为程序员的三大浪漫之一，常被比喻为计算机的灵魂、大脑、内核和基石，其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案，涵盖从需求分析到系统设计、开发与测试的全过程，帮助读者深入理解操作系统的本质与实现方法。 ... [详细]

蜡笔小新 2024-10-31 18:17:13
io
2019年后蚂蚁集团与拼多多面试经验详述与深度剖析

2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]

蜡笔小新 2024-10-30 17:30:06
io
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
io
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
io
Ceph API微服务实现RBD块设备的高效创建与安全删除

本文旨在实现Ceph块存储中RBD块设备的高效创建与安全删除功能。开发环境为CentOS 7，使用 IntelliJ IDEA 进行开发。首先介绍了 librbd 的基本概念及其在 Ceph 中的作用，随后详细描述了项目 Gradle 配置的优化过程，确保了开发环境的稳定性和兼容性。通过这一系列步骤，我们成功实现了 RBD 块设备的快速创建与安全删除，提升了系统的整体性能和可靠性。 ... [详细]

蜡笔小新 2024-10-31 15:11:07
io
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06

mobiledu2502852923

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章