Kubernetes运维之使用Prometheus全方位监控K8S(概念篇)

作者：悉尼新鲜事儿 | 来源：互联网 | 2023-08-09 09:22

目录：Prometheus架构K8S监控指标及实现思路在K8S平台部署Prometheus基于K8S服务发现的配置解析在K8S平台部署Grafana监控K8S集群中P

目录&＃xff1a;

Prometheus架构
K8S监控指标及实现思路
在K8S平台部署Prometheus
基于K8S服务发现的配置解析
在K8S平台部署Grafana
监控K8S集群中Pod、Node、资源对象
使用Grafana可视化展示Prometheus监控数据
告警规则与告警通知

说在前面的话&＃xff0c;现在监控首选的话&＃xff0c;肯定是Prometheus&＃43;Grafana,也就是很多大型公司也都在用&＃xff0c;像RBM&＃xff0c;360&＃xff0c;网易&＃xff0c;基本都是使用这一套监控系统。

一、Prometheus 是什么&＃xff1f;

Prometheus&＃xff08;普罗米修斯&＃xff09;是一个最初在SoundCloud上构建的监控系统。SoundCloud是搞云计算的一家国外的公司&＃xff0c;也是由一位工程师来到这家公司之后开发的这个系统&＃xff0c;自2012年成为社区开源项目&＃xff0c;拥有非常活跃的开发人员和用户社区。为强调开源及独立维护&＃xff0c;Prometheus于2016年加入云原生云计算基金会
&＃xff08;CNCF&＃xff09;&＃xff0c;成为继Kubernetes之后的第二个项目&＃xff0c;这个项目发展的还是比较快的&＃xff0c;随着k8s的发展&＃xff0c;它也起来了。
https://prometheus.io 官方网站
https://github.com/prometheus GitHub地址

Prometheus组成及架构
接下来看一下它这个官方给出的架构图&＃xff0c;我们来研究一下

在这里插入图片描述

最左边这块就是采集的&＃xff0c;采集谁监控谁&＃xff0c;一般是一些短周期的任务&＃xff0c;比如cronjob这样的任务,也可以是一些持久性的任务&＃xff0c;其实主要就是一些持久性的任务&＃xff0c;比如web服务&＃xff0c;也就是持续运行的&＃xff0c;暴露一些指标&＃xff0c;像短期任务呢&＃xff0c;处理一下就关了&＃xff0c;分为这两个类型&＃xff0c;短期任务会用到Pushgateway,专门收集这些短期任务的。

中间这块就是Prometheus它本身&＃xff0c;内部是有一个TSDB的数据库的&＃xff0c;从内部的采集和展示Prometheus它都可以完成&＃xff0c;展示这块自己的这块UI比较lou&＃xff0c;所以借助于这个开源的Grafana来展示&＃xff0c;所有的被监控端暴露完指标之后&＃xff0c;Prometheus会主动的抓取这些指标&＃xff0c;存储到自己TSDB数据库里面&＃xff0c;提供给Web UI,或者Grafana&＃xff0c;或者API clients通过PromQL来调用这些数据&＃xff0c;PromQL相当于Mysql的SQL&＃xff0c;主要是查询这些数据的。

中间上面这块是做服务发现的&＃xff0c;也就是你有很多的被监控端时&＃xff0c;手动的去写这些被监控端是不现实的&＃xff0c;所以需要自动的去发现新加入的节点&＃xff0c;或者以批量的节点&＃xff0c;加入到这个监控中&＃xff0c;像k8s它内置了k8s服务发现的机制&＃xff0c;也就是它会连接k8s的API&＃xff0c;去发现你部署的哪些应用&＃xff0c;哪些pod&＃xff0c;通通的都给你暴露出去&＃xff0c;监控出来&＃xff0c;也就是为什么K8S对prometheus特别友好的地方&＃xff0c;也就是它内置了做这种相关的支持了。

右上角是Prometheus的告警&＃xff0c;它告警实现是有一个组件的&＃xff0c;Alertmanager,这个组件是接收prometheus发来的告警就是触发了一些预值&＃xff0c;会通知Alertmanager,而Alertmanager来处理告警相关的处理&＃xff0c;然后发送给接收人&＃xff0c;可以是email,也可以是企业微信&＃xff0c;或者钉钉&＃xff0c;也就是它整个的这个框架&＃xff0c;分为这5块。

小结&＃xff1a;

Prometheus Server&＃xff1a;收集指标和存储时间序列数据&＃xff0c;并提供查询接口
ClientLibrary&＃xff1a;客户端库&＃xff0c;这些可以集成一些很多的语言中&＃xff0c;比如使用JAVA开发的一个Web网站&＃xff0c;那么可以集成JAVA的客户端&＃xff0c;去暴露相关的指标&＃xff0c;暴露自身的指标&＃xff0c;但很多的业务指标需要开发去写的&＃xff0c;
Push Gateway&＃xff1a;短期存储指标数据。主要用于临时性的任务
Exporters&＃xff1a;采集已有的第三方服务监控指标并暴露metrics&＃xff0c;相当于一个采集端的agent,
Alertmanager&＃xff1a;告警
Web UI&＃xff1a;简单的Web控制台

数据模型
Prometheus将所有数据存储为时间序列&＃xff1b;具有相同度量名称以及标签属于同一个指标。
每个时间序列都由度量标准名称和一组键值对&＃xff08;也成为标签&＃xff09;唯一标识。也就是查询时
也会依据这些标签来查询和过滤&＃xff0c;就是写PromQL时
时间序列格式&＃xff1a;
{&＃61;, …}
指标的名字&＃43;花括号里面有很多的值

示例&＃xff1a;api_http_requests_total{method&＃61;“POST”, handler&＃61;“/messages”}
&＃xff08; 名称 &＃xff09;&＃xff08;里面包含的POST请求&＃xff0c;GET请求&＃xff0c;请求里面还包含了请求的资源&＃xff0c;比如messages或者API&＃xff09;里面可以还有很多的指标&＃xff0c;比如请求的协议&＃xff0c;或者携带了其他HTTP头的字段&＃xff0c;都可以进行标记出来&＃xff0c;就是想监控的都可以通过这种方式监控出来。

作业和实例
实例&＃xff1a;可以抓取的目标称为实例&＃xff08;Instances&＃xff09;&＃xff0c;用过zabbix的都知道被监控端是称为什么&＃xff0c;一般就是称为主机&＃xff0c;被监控端&＃xff0c;而在prometheus称为一个实例。
作业&＃xff1a;具有相同目标的实例集合称为作业&＃xff08;Job&＃xff09;&＃xff0c;也就是将你的被监控端作为你个集合&＃xff0c;比如做一个分组&＃xff0c;web 服务有几台&＃xff0c;比如有3台&＃xff0c;写一个job下&＃xff0c;这个job下就是3台&＃xff0c;就是做一个逻辑上的分组&＃xff0c;

二、K8S监控指标

Kubernetes本身监控

• Node资源利用率 &＃xff1a;一般生产环境几十个node&＃xff0c;几百个node去监控
• Node数量 &＃xff1a;一般能监控到node&＃xff0c;就能监控到它的数量了&＃xff0c;因为它是一个实例&＃xff0c;一个node能跑多少个项目&＃xff0c;也是需要去评估的&＃xff0c;整体资源率在一个什么样的状态&＃xff0c;什么样的值&＃xff0c;所以需要根据项目&＃xff0c;跑的资源利用率&＃xff0c;还有值做一个评估的&＃xff0c;比如再跑一个项目&＃xff0c;需要多少资源。
• Pods数量&＃xff08;Node&＃xff09;&＃xff1a;其实也是一样的&＃xff0c;每个node上都跑多少pod,不过默认一个node上能跑110个pod&＃xff0c;但大多数情况下不可能跑这么多&＃xff0c;比如一个128G的内存&＃xff0c;32核cpu,一个java的项目&＃xff0c;一个分配2G,也就是能跑50-60个&＃xff0c;一般机器&＃xff0c;pod也就跑几十个&＃xff0c;很少很少超过100个。
• 资源对象状态 &＃xff1a;比如pod&＃xff0c;service,deployment,job这些资源状态&＃xff0c;做一个统计。

Pod监控
• Pod数量&＃xff08;项目&＃xff09;&＃xff1a;你的项目跑了多少个pod的数量&＃xff0c;大概的利益率是多少&＃xff0c;好评估一下这个项目跑了多少个资源占有多少资源&＃xff0c;每个pod占了多少资源。
• 容器资源利用率 &＃xff1a;每个容器消耗了多少资源&＃xff0c;用了多少CPU&＃xff0c;用了多少内存
• 应用程序&＃xff1a;这个就是偏应用程序本身的指标了&＃xff0c;这个一般在我们运维很难拿到的&＃xff0c;所以在监控之前呢&＃xff0c;需要开发去给你暴露出来&＃xff0c;这里有很多客户端的集成&＃xff0c;客户端库就是支持很多语言的&＃xff0c;需要让开发做一些开发量将它集成进去&＃xff0c;暴露这个应用程序的想知道的指标&＃xff0c;然后纳入监控&＃xff0c;如果开发部配合&＃xff0c;基本运维很难做到这一块&＃xff0c;除非自己写一个客户端程序&＃xff0c;通过shell/python能不能从外部获取内部的工作情况&＃xff0c;如果这个程序提供API的话&＃xff0c;这个很容易做到。

在这里插入图片描述

如果想监控node的资源&＃xff0c;就可以放一个node_exporter,这是监控node资源的&＃xff0c;node_exporter是Linux上的采集器&＃xff0c;你放上去你就能采集到当前节点的CPU、内存、网络IO&＃xff0c;等待都可以采集的。

如果想监控容器&＃xff0c;k8s内部提供cAdvisor采集器&＃xff0c;pod呀&＃xff0c;容器都可以采集到这些指标&＃xff0c;都是内置的&＃xff0c;不需要单独部署&＃xff0c;只知道怎么去访问这个Cadvisor就可以了。

如果想监控k8s资源对象&＃xff0c;会部署一个kube-state-metrics这个服务&＃xff0c;它会定时的API中获取到这些指标&＃xff0c;帮你存取到Prometheus里&＃xff0c;要是告警的话&＃xff0c;通过Alertmanager发送给一些接收方&＃xff0c;通过Grafana可视化展示。

在这里插入图片描述

参考文章&＃xff08;全&＃xff09;&＃xff1a; https://blog.51cto.com/u_14143894/2438026

推荐阅读

fetch
分布式开源任务调度框架 TBSchedule 深度解析与应用实践

本文深入解析了分布式开源任务调度框架 TBSchedule 的核心原理与应用场景，并通过实际案例详细介绍了其部署与使用方法。首先，从源码下载开始，详细阐述了 TBSchedule 的安装步骤和配置要点。接着，探讨了该框架在大规模分布式环境中的性能优化策略，以及如何通过灵活的任务调度机制提升系统效率。最后，结合具体实例，展示了 TBSchedule 在实际项目中的应用效果，为开发者提供了宝贵的实践经验。 ... [详细]

蜡笔小新 2024-11-02 11:59:52
java
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
web
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
instance
Singleton单例模式和DoubleChecked Locking双重检查锁定模式

问题描述现在，不管开发一个多大的系统（至少我现在的部门是这样的），都会带一个日志功能；在实际开发过程中 ... [详细]

蜡笔小新 2024-11-21 15:14:45
web
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
fetch
如何将955万数据表的17秒SQL查询优化至300毫秒

本文详细介绍了通过优化SQL查询策略，成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧，还深入探讨了背后的数据库原理。 ... [详细]

蜡笔小新 2024-11-21 12:11:54
fetch
ADO.NET核心组件解析

本文介绍了ADO.NET框架中的五个关键组件：Connection、Command、DataAdapter、DataSet和DataReader。每个组件都在数据访问和处理过程中扮演着不可或缺的角色。 ... [详细]

蜡笔小新 2024-11-20 19:31:07
java
大厂Java研发岗位面试总结与资料分享

本文总结了一次针对大厂Java研发岗位的面试经历，探讨了面试中常见的问题及其背后的原因，并分享了一些实用的面试准备资料。 ... [详细]

蜡笔小新 2024-11-20 19:00:01
web
菜鸟物流核心部门诚聘P6及以上JAVA工程师

菜鸟物流用户增长部现正大规模招聘P6及以上级别的JAVA工程师，提供年后入职选项。 ... [详细]

蜡笔小新 2024-11-20 16:25:34
java
如何在U8系统中连接服务器并获取数据

本文介绍了如何在U8系统中通过不同的方法连接服务器并获取数据，包括使用MySQL客户端连接实例的方法，如非SSL连接和SSL连接，并提供了详细的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-19 12:08:19
fetch
提升Android应用性能：利用Kotlin协程

协程作为一种并发设计模式，能有效简化Android平台上的异步代码处理。自Kotlin 1.3版本引入协程以来，这一特性基于其他语言的成熟理念，为开发者提供了新的工具，以增强应用的响应性和效率。 ... [详细]

蜡笔小新 2024-11-19 10:13:02
web
Android系统架构详解及关闭方法

本文详细介绍了Android系统的四层架构，包括应用程序层、应用框架层、库与Android运行时层以及Linux内核层，并提供了如何关闭Android系统的步骤。 ... [详细]

蜡笔小新 2024-11-19 09:04:28
web
mysql 授权!!

为什么80%的码农都做不了架构师？MySQL的权限系统围绕着两个概念：认证-确定用户是否允许连接数据库服务器授权-确定用户是否拥有足够的权限执 ... [详细]

蜡笔小新 2024-11-18 17:34:42
timezone
MySQL定时清理：每10分钟自动删除数据库中的无效数据

为了确保数据库的高效运行，本文介绍了一种方法，通过编写定时任务脚本来自动清理 `order` 表中状态为 0 或为空的无效订单记录。该脚本使用 PHP 编写，并设置时区为中国标准时间，每 10 分钟执行一次，以保持数据库的整洁和性能优化。此外，还详细介绍了如何配置定时任务以及脚本的具体实现步骤。 ... [详细]

蜡笔小新 2024-11-11 14:20:31
web
项目开发中不可或缺的Linux命令详解

在项目开发过程中，掌握一些关键的Linux命令至关重要。例如，使用 `Ctrl+C` 可以立即终止当前正在执行的命令；通过 `ps -ef | grep ias` 可以查看特定服务的进程信息，包括进程ID（PID）和JVM参数（如内存分配和远程连接端口）；而 `netstat -apn | more` 则用于显示网络连接状态，帮助开发者监控和调试网络服务。这些命令不仅提高了开发效率，还能有效解决运行时的各种问题。 ... [详细]

蜡笔小新 2024-11-03 13:59:27

悉尼新鲜事儿

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章