Prometheus系列开篇：为什么要学Prometheus？

作者：遗失的美好顺_599 | 来源：互联网 | 2023-09-08 11:16

「Prometheus系列开篇：为什么要学Prometheus？」首发于【陈树义】公众号，点击跳转到原文https:mp.weixin.qq.comsHCS6X3l6nVBw_hA

「Prometheus 系列开篇：为什么要学 Prometheus ？」首发于【陈树义】公众号，点击跳转到原文https://mp.weixin.qq.com/s/HCS6X3l6nVBw_hAnd64phQ
第一次接触 Prometheus 是在去年，我工作了六年的时间点上。但现在看来，工作六年才知道 Prometheus 是有点晚了，因为 Prometheus 确实比较重要。个人感觉 Prometheus 在你 3-5 年之时就应该了解，并且应该掌握关于它的一整套知识，最终你应该掌握：如何从零去搭建一套业务监控系统！
说到 Prometheus，大多数人可能不太清楚它是做什么的。即使知道它是做监控的，也不明白为什么要做监控。这其中涉及到许多原因，我想主要有下面两点原因。
第一，全局观不足。许多开发同学长期在一线开发，局限于自己开发的需求上，对整个系统不了解，对整个系统业务不了解。只有当你做了 leader 之后，你才会更关注系统的整体情况。而如果你当了 leader，你会发现业务监控系统是多么重要！（毕竟，你也不想半夜被电话吵醒，睡眼惺忪地打开电脑解决问题~）
第二，工作经验欠缺。刚刚工作一两年的同学，对于 Java 整个知识体系还学得不够全面。而 Prometheus 的监控知识更多属于进阶的知识，自然会被排到更后面的位置。
除了前面说到的这两个主要原因，其实也还有一些其他原因，例如：公司技术体系问题等等。
言归正传，那 Prometheus 到底是做什么的，为什么要学习 Prometheus 呢？

什么是 Prometheus？

「Prometheus 系列开篇：为什么要学 Prometheus ？」首发于【陈树义】公众号，点击跳转到原文https://mp.weixin.qq.com/s/HCS6X3l6nVBw_hAnd64phQ
Prometheus（普罗米修斯）是古希腊的一个神明，名字的意思是「先见之明」。从它的名字可以看出，Prometheus 是做「先见之明」的监控告警用途。维基百科简单写了它的作用：Prometheus is a free software application used for event monitoring and alerting（Prometheus 是用来监控、报警的免费软件）。
Prometheus 官网则是用「From metrics to insight」（用指标洞察系统的意思）描述了 Prometheus 的用途。
看到这里我们大概知道 Prometheus 其实就是一个数据监控解决方案，它能帮你简单快速地搭建起一套可视化的监控系统。但这么说还是有点抽象，下面我举几个简单的例子，帮助大家理解 Prometheus 究竟能做什么？
对于运维人员来说，他们需要监控机器的 CPU、内存、硬盘的使用情况，以此来保证运行在机器上的应用的稳定性。
对于研发人员来说，他们关注某个异常指标的变化情况，从而来保证业务的稳定运行。
对于产品或运营来说，他们更关心产品层面的事情，例如：某个活动参加人数的增长情况，活动积分的发放情况。
对于上面说到的这些功能，Prometheus 都能够实现。Prometheus 能根据这些收集的数据实现告警功能。
例如：运维希望在 CPU 达到 80% 的时候给值班的运维人员发送邮件，产品希望活动积分发放数量超过 10 万的时候发送告警邮件。这些都可以通过 Prometheus 实现。
除了数据收集、告警功能之外，Prometheus 还有很多强大的功能，例如：强大的 ProQL 查询、许多客户端库等。
因为 Prometheus 功能强大、构建成本低，所以现在越来越多的公司都使用 Prometheus 作为其数据监控的解决方案。

为什么要学Prometheus？

对于一直在一线开发的同学而言，你可能只需要把自己的需求做好、没有 bug、顺利上线，那么你的任务就完成了。但是如果你是一个 leader，那么你是对整个业务系统负责，这个业务系统出了什么问题，都是你的责任。这个时候，你需要时刻关注这个系统是否正常运行。

对于流量不是很大的系统来说，出现几分钟的故障可能造成不了多少损失。但是对于像淘宝、美团、字节跳动这样的巨无霸来说，宕机 1 分钟损失的金额可能就是几百万！

所以弄清楚此时此刻系统的运行是否正常？各项业务指标是否超过阈值？这些问题是每个经验丰富的研发人员所需要关注的事情！

那么如何监控你的系统？如何得知系统目前是正常还是异常？甚至如何预知未来一段时间系统可能出问题？Prometheus 正是这么一套数据监控解决方案。它能让你随时掌控系统的运行状态，快速定位出现问题的位置，快速排除故障。

只要按照 Prometheus 的方式来做，按部就班地学习和部署，我们就可以监控机器的 CPU、内存等资源的使用情况、Java 应用的运行情况以及业务各项指标的实时数据。

当然有一些公司会自己使用 Kafaka 收集监控数据，并且存储在 Hive 中，最终通过页面聚合数据，同样能够实现数据监控。但是这种解决方案需要开发人员掌握 Hive + Hadoop 等大数据框架，并且在前端展示上比较局限。

而通过 Prometheus 则可以直接部署使用，并且其与 Grafana 配套使用可以呈现出非常多样化的图表配置。对于中小规模的团队来说，可以极大地减少成本，加快研发速度。

而对于个人来讲，掌握 Prometheus 可以增加你当 leader 的竞争力。 毕竟如果一个研发对自己的系统运行状况都不了解，那么他怎么做 leader，怎么带领一个团队往前冲呢？

「Prometheus 系列开篇：为什么要学 Prometheus ？」首发于【陈树义】公众号，点击跳转到原文https://mp.weixin.qq.com/s/HCS6X3l6nVBw_hAnd64phQ

总结

对于工作多年的研发人员，对自己负责的系统必须了然于胸。而要做到了然于胸，单靠一味的自信是不够的，必须借助一套功能强大的业务监控系统。Prometheus 作为这其中的翘楚，凭借其完善的功能、海量数据支持，可以让我们较低成本地实现业务监控。

参考资料

Prometheus - Monitoring system & time series database

普罗米修斯 - 维基百科，自由的百科全书

推荐阅读

spring
深入解析 Android 值动画实现细节

本文详细介绍了如何在 Android 中使用值动画（ValueAnimator）来动态调整 ImageView 的高度，并探讨了相关的关键属性和方法，包括图片填充后的高度、原始图片高度、动画变化因子以及布局重置等。 ... [详细]

蜡笔小新 2024-12-20 17:58:54
export
主调|大侠_重温C++

主调|大侠_重温C++ ... [详细]

蜡笔小新 2024-12-20 20:43:56
object
CentOS 6.8 上安装 Oracle 10.2.0.1 的常见问题及解决方案

本文记录了在 CentOS 6.8 系统上安装 Oracle 10.2.0.1 数据库时遇到的问题及解决方法，包括依赖库缺失、操作系统版本不兼容、用户权限不足等问题。 ... [详细]

蜡笔小新 2024-12-20 17:19:23
spring
Spring Boot 中静态资源映射详解

本文深入探讨了 Spring Boot 如何简化 Web 应用中的静态资源管理，包括默认的静态资源映射规则、WebJars 的使用以及静态首页的处理方法。通过本文，您将了解如何高效地管理和引用静态资源。 ... [详细]

蜡笔小新 2024-12-20 20:02:31
spring
深入理解Java多线程并发处理：基础与实践

本文探讨了Java中的多线程并发处理机制，从基本概念到实际应用，帮助读者全面理解并掌握多线程编程技巧。通过实例解析和理论阐述，确保初学者也能轻松入门。 ... [详细]

蜡笔小新 2024-12-20 19:28:45
perl
MongoDB的核心特性与架构解析

本文深入探讨了MongoDB的核心特性，包括其强大的查询语言、灵活的文档模型以及高效的索引机制。此外，还详细介绍了MongoDB的体系结构，解释了其文档、集合和数据库的层次关系，并对比了MongoDB与传统关系型数据库（如MySQL）的逻辑结构。 ... [详细]

蜡笔小新 2024-12-20 19:23:54
perl
使用正则表达式去除字符串中单词间的空格

本文探讨了如何在Hive（基于Hadoop）环境中编写类似SQL的语句，以去除字段中的空格。特别是在处理邮政编码等数据时，去除特定位置的空格是常见的需求。 ... [详细]

蜡笔小新 2024-12-20 19:08:43
spring
Java异步编程实践

本文详细介绍了Java中实现异步调用的多种方式，包括线程创建、Future接口、CompletableFuture类以及Spring框架的@Async注解。通过代码示例和深入解析，帮助读者理解并掌握这些技术。 ... [详细]

蜡笔小新 2024-12-20 18:02:19
object
深入剖析JVM垃圾回收机制

本文详细探讨了Java虚拟机（JVM）中的垃圾回收机制，包括其意义、对象判定方法、引用类型、常见垃圾收集算法以及各种垃圾收集器的特点和工作原理。通过理解这些内容，开发人员可以更好地优化内存管理和程序性能。 ... [详细]

蜡笔小新 2024-12-20 17:24:41
list
搭建Jenkins、Ant与TestNG集成环境

本文详细介绍了如何在Ubuntu 16.04系统上配置Jenkins、Ant和TestNG的集成开发环境，涵盖从安装到配置的具体步骤，并提供了创建Windows Slave节点及项目构建的指南。 ... [详细]

蜡笔小新 2024-12-20 16:50:58
spring
docker镜像重启_docker怎么启动镜像

docker镜像重启_docker怎么启动镜像dock ... [详细]

蜡笔小新 2024-12-20 16:34:52
header
软件工程课堂测试2

要做一个简单的保存网页界面，首先用jsp写出保存界面，本次界面比较简单，首先是三个提示语，后面是三个输入框，然 ... [详细]

蜡笔小新 2024-12-20 15:00:51
list
深入理解 JMeter 定时器

本文详细介绍了JMeter中定时器的功能和使用方法，探讨了其在性能测试中的重要性，并结合实际案例解释了如何合理配置定时器以模拟真实的用户行为。文章还涵盖了定时器的执行顺序及其与其他元件的相互作用。 ... [详细]

蜡笔小新 2024-12-20 13:46:54
list
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
list
Java - 优化循环中断与计数器递增的方法

探讨在Java中更高效地中断外层循环或递增计数器的方法，以提升代码性能和可读性。 ... [详细]

蜡笔小新 2024-12-20 00:25:43

遗失的美好顺_599

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章