热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

如何验证Kafka系统的可靠性

今天就跟大家聊聊有关如何验证Kafka系统的可靠性,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文

今天就跟大家聊聊有关如何验证 Kafka 系统的可靠性,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

当通过 Kafka 构建的系统需要提供特定的可靠性,我们对 Kafka  做了相应配置,对生产者和消费者的应用做了必要的处理之后,如何验证整个系统确实实现了期望的可靠性呢?

1. 概述

仍然是那句话,可靠性不是一个可以轻易获得的东西,验证的方法也不简单,分为三个阶段:

  • 在没有生产者和消费者参与的情况下,对 Kafka 的配置进行验证,确认 Kafka 的表现与预期一致;

  • 加入生产者和消费者的应用,确认生产者和消费者的表现和预期一致;

  • 应用上线后,对应用和 Kafka 的指标、日志等进行监控,发现与可靠性有关的问题,进行修复。

2. 验证配置

验证:其实就是测试,实际效果和预期效果是否一致,因此在验证前必须确认期望看到的结果,如果这一步有误差,验证可能很难成功。

验证配置不是指用肉眼去确认配置文件是否正确,而是使用 Kafka 提供的工具,Kafka 在 org.apacha.kafka.tools  包下有两个类:VerifiableProducer 和 VerifiableConsumer,这两个类既可以通过命令行运行,也可以在各种测试框架中使用。

VerifiableProducer 可以按照我们指定的参数来发送一定数量的消息,消息内容为从 1 开始递增的数字,参数包括  acks,重试次数和发送速率等等,运行时会打印每条消息发送成功或失败。VerifiableConsumer 消费 VerifiableProducer  生产的消息,按照消费顺序打印消息内容,并且打印提交 offset 和分区重分配的消息。

下面来实战一下,先看下这两个命令行工具都有哪些参数:

如何验证 Kafka 系统的可靠性
如何验证 Kafka 系统的可靠性

因为我也是第一次使用,所以我就随便选几个参数设置一下:

使用 VerifiableProducer 发送数据:

如何验证 Kafka 系统的可靠性

然后用 VerifiableConsumer 接收收据:

如何验证 Kafka 系统的可靠性

因为将 max-messages 设置为 10,而 topic 中只有 5 条消息,所以没有退出。

以上只是演示,因为 broker 只有一台,而且非常稳定,实际测试时需要构建更复杂的场景:

  • leader 选举,关掉 leader 所在的 broker,producer 和 consumer 需要多长时间恢复?

  • controller 选举,重启 controller,整个系统需要多长时间恢复?

  • 滚动重启,一台一台的重启 broker,能否做到一条消息都不丢失?

  • 脏 leader 选举,当发生了脏 leader 选举时,producer 和 consumer 会发生什么,能否接受后果?

根据实际的需要去构建测试场景,当测试都通过之后可以进入下一步。

3. 验证应用

其实这一步的验证方法和上一步非常类似,唯一的区别是:生产者和消费者替换成了自己开发的应用代码,保持 Kafka  的配置不变,启动应用中的生产和消费者,在构建的场景中测试,比如:

  • 生产者和消费者与 Kafka 集群断开网络

  • 发生了 leader 选举

  • broker 进行滚动重启

  • 消费者进行滚动重启

  • 生产者进行滚动重启

如果测试结果不符合预期,找到原因,修复它,全部验证通过后,进入下一步。

4. 线上监控

这一步非常重要,因为万一前两步有所疏漏,或者来不及做,监控可以确保及时发现问题,避免损失。

监控的内容可以包括:JMX、日志以及其它更复杂的自定义的指标。

JMX 监控

Kafka 自带了 JMX 监控,对于broker,生产者和消费者,分别有不同的指标可以关注。

对于 broker,值得监控的指标很多,比如达不到 ISR 最小副本数的分区个数,正在同步的分区副本数,下线分区数,controller  数量,失败的生产请求数,leader 选举次数和时间等等,都很重要。

对于生产者,两个和可靠性相关的指标是每条消息的平均错误率和平均重试率,这两个指标如果上升了,表明系统肯定是出了问题。

对于消费者,最重要的指标是消费 lag,它表明了这个消费者当前消费到的位置落后于这个 topic 的各个分区最新消息有多远,理想情况是在 0  和一个很小的值之间波动,如果增大到一定的阈值,则需要进行处理。

日志监控

Kafka 的日志监控和其它应用的日志监控区别不大,关注日志中出现的 WARN 和 ERROR,任何异常都有可能影响可靠性。

其它监控

如果不满足于 JMX 监控和日志监控,可以自己扩展或增加其它的监控,JMX 报告的指标是可以扩展的,日志的内容也是可以增加的,但可能需要修改源码。

监控系统

一般来说,Kafka 的监控任务应当由专门的监控和运维故障管理系统来完成,我用过两个系统来监控 Kafka:小米的 Open-Falcon 和  InfluxData 的 Telegraf + InfluxDB + Grafana 套件。都还行,可以比较灵活的定制想要监控的内容,同时支持多种报警方式,比如  Open-Falcon 支持邮件和微信报警,而 Grafana 的页面美观性相当不错,其它应当还有不少,但是我没有用过就不胡扯了。

看完上述内容,你们对如何验证 Kafka 系统的可靠性有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注编程笔记行业资讯频道,感谢大家的支持。


推荐阅读
  • 你知道Kafka和Redis的各自优缺点吗?一文带你优化选择,不走弯路 ... [详细]
  • kafka教程基本概念
    kafka教程基本概念 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 大幅|大盘_OPLG:新一代云原生可观测最佳实践
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了OPLG:新一代云原生可观测最佳实践相关的知识,希望对你有一定的参考价值。简介: ... [详细]
  • 开发笔记:Prometheus监控系列最佳实践
    Prometheus是继kubernetes第二个从CNCF中毕业的项目,个人也是非常的喜欢这款通过数据指标发现和预测告警的开源监控平台,官方的话就不多说了,根据官网的 ... [详细]
  • 最近有一件事件让我印象特地粗浅,作为引子和大家唠一唠:咱们在外部做一些极其的流量回归仿真试验时,在TiKV(TiDB的分布式存储组件)上观测到了异样的CPU使用率,然而从咱们的GrafanaMetrics、日志输入外面并没有看到异样,因而也一度困惑了好几天,最初靠一位老司机盲猜并联合profiling才找到真凶,真凶呈现 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 【Windows】实现微信双开或多开的方法及步骤详解
    本文介绍了在Windows系统下实现微信双开或多开的方法,通过安装微信电脑版、复制微信程序启动路径、修改文本文件为bat文件等步骤,实现同时登录两个或多个微信的效果。相比于使用虚拟机的方法,本方法更简单易行,适用于任何电脑,并且不会消耗过多系统资源。详细步骤和原理解释请参考本文内容。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • 本文介绍了深入浅出Linux设备驱动编程的重要性,以及两种加载和删除Linux内核模块的方法。通过一个内核模块的例子,展示了模块的编译和加载过程,并讨论了模块对内核大小的控制。深入理解Linux设备驱动编程对于开发者来说非常重要。 ... [详细]
  • 本文介绍了sqlserver云存储和本地存储的区别,云存储是将数据存储在网络上,方便查看和调用;本地存储是将数据存储在电脑磁盘上,只能在存储的电脑上查看。同时提供了几种启动sqlserver的方法。此外,还介绍了如何导出数据库的步骤和工具。 ... [详细]
author-avatar
平凡屋之换
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有