因为Kafka宕机，同事写了篇Kafka高可用原理复盘！

作者：孔阳kyy | 来源：互联网 | 2023-08-01 14:46

Kafka宕机引发的高可用问题问题要从一次Kafka的宕机开始说起。从Kafka部署后，系统内部使用的Kafka一直运行稳定，没有出现不可用的情况。但最

Kafka宕机引发的高可用问题

问题要从一次Kafka的宕机开始说起。

从Kafka部署后&＃xff0c;系统内部使用的Kafka一直运行稳定&＃xff0c;没有出现不可用的情况。

但最近系统测试人员常反馈偶有Kafka消费者收不到消息的情况&＃xff0c;登陆管理界面发现三个节点中有一个节点宕机挂掉了。但是按照高可用的理念&＃xff0c;三个节点还有两个节点可用怎么就引起了整个集群的消费者都接收不到消息呢&＃xff1f;

要解决这个问题&＃xff0c;就要从Kafka的高可用实现开始讲起。

Kafka的多副本冗余设计

不管是传统的基于关系型数据库设计的系统&＃xff0c;还是分布式的如zookeeper、redis、Kafka、HDFS等等&＃xff0c;实现高可用的办法通常是采用冗余设计&＃xff0c;通过冗余来解决节点宕机不可用问题。

首先简单了解Kafka的几个概念&＃xff1a;

物理模型
逻辑模型
Broker&＃xff08;节点&＃xff09;&＃xff1a;Kafka服务节点&＃xff0c;简单来说一个Broker就是一台Kafka服务器&＃xff0c;一个物理节点。
Topic&＃xff08;主题&＃xff09;&＃xff1a;在Kafka中消息以主题为单位进行归类&＃xff0c;每个主题都有一个Topic Name&＃xff0c;生产者根据Topic Name将消息发送到特定的Topic&＃xff0c;消费者则同样根据Topic Name从对应的Topic进行消费。
Partition&＃xff08;分区&＃xff09;&＃xff1a;Topic&＃xff08;主题&＃xff09;是消息归类的一个单位&＃xff0c;但每一个主题还能再细分为一个或多个Partition&＃xff08;分区&＃xff09;&＃xff0c;一个分区只能属于一个主题。主题和分区都是逻辑上的概念&＃xff0c;举个例子&＃xff0c;消息1和消息2都发送到主题1&＃xff0c;它们可能进入同一个分区也可能进入不同的分区&＃xff08;所以同一个主题下的不同分区包含的消息是不同的&＃xff09;&＃xff0c;之后便会发送到分区对应的Broker节点上。
Offset&＃xff08;偏移量&＃xff09;&＃xff1a;分区可以看作是一个只进不出的队列&＃xff08;Kafka只保证一个分区内的消息是有序的&＃xff09;&＃xff0c;消息会往这个队列的尾部追加&＃xff0c;每个消息进入分区后都会有一个偏移量&＃xff0c;标识该消息在该分区中的位置&＃xff0c;消费者要消费该消息就是通过偏移量来识别。

其实&＃xff0c;根据上述的几个概念&＃xff0c;是不是也多少猜到了Kafka的多副本冗余设计实现了&＃xff1f;别急&＃xff0c;咱继续往下看。

在Kafka 0.8版本以前&＃xff0c;是没有多副本冗余机制的&＃xff0c;一旦一个节点挂掉&＃xff0c;那么这个节点上的所有Partition的数据就无法再被消费。这就等于发送到Topic的有一部分数据丢失了。

在0.8版本后引入副本记者则很好地解决宕机后数据丢失的问题。副本是以Topic中每个Partition的数据为单位&＃xff0c;每个Partition的数据会同步到其他物理节点上&＃xff0c;形成多个副本。

每个Partition的副本都包括一个Leader副本和多个Follower副本&＃xff0c;Leader由所有的副本共同选举得出&＃xff0c;其他副本则都为Follower副本。在生产者写或者消费者读的时候&＃xff0c;都只会与Leader打交道&＃xff0c;在写入数据后Follower就会来拉取数据进行数据同步。

就这么简单&＃xff1f;是的&＃xff0c;基于上面这张多副本架构图就实现了Kafka的高可用。当某个Broker挂掉了&＃xff0c;甭担心&＃xff0c;这个Broker上的Partition在其他Broker节点上还有副本。你说如果挂掉的是Leader怎么办&＃xff1f;那就在Follower中在选举出一个Leader即可&＃xff0c;生产者和消费者又可以和新的Leader愉快地玩耍了&＃xff0c;这就是高可用。

你可能还有疑问&＃xff0c;那要多少个副本才算够用&＃xff1f;Follower和Leader之间没有完全同步怎么办&＃xff1f;一个节点宕机后Leader的选举规则是什么&＃xff1f;

直接抛结论&＃xff1a;

多少个副本才算够用&＃xff1f;副本肯定越多越能保证Kafka的高可用&＃xff0c;但越多的副本意味着网络、磁盘资源的消耗更多&＃xff0c;性能会有所下降&＃xff0c;通常来说副本数为3即可保证高可用&＃xff0c;极端情况下将replication-factor参数调大即可。

Follower和Lead之间没有完全同步怎么办&＃xff1f;Follower和Leader之间并不是完全同步&＃xff0c;但也不是完全异步&＃xff0c;而是采用一种ISR机制&＃xff08;In-Sync Replica&＃xff09;。每个Leader会动态维护一个ISR列表&＃xff0c;该列表里存储的是和Leader基本同步的Follower。如果有Follower由于网络、GC等原因而没有向Leader发起拉取数据请求&＃xff0c;此时Follower相对于Leader是不同步的&＃xff0c;则会被踢出ISR列表。所以说&＃xff0c;ISR列表中的Follower都是跟得上Leader的副本。

一个节点宕机后Leader的选举规则是什么&＃xff1f;分布式相关的选举规则有很多&＃xff0c;像ZooKeeper的Zab、Raft、Viewstamped Replication、微软的PacificA等。而Kafka的Leader选举思路很简单&＃xff0c;基于我们上述提到的ISR列表&＃xff0c;当宕机后会从所有副本中顺序查找&＃xff0c;如果查找到的副本在ISR列表中&＃xff0c;则当选为Leader。另外还要保证前任Leader已经是退位状态了&＃xff0c;否则会出现脑裂情况&＃xff08;有两个Leader&＃xff09;。怎么保证&＃xff1f;Kafka通过设置了一个controller来保证只有一个Leader。

Ack参数决定了可靠程度

另外&＃xff0c;这里补充一个面试考Kafka高可用必备知识点&＃xff1a;request.required.asks参数。

Asks这个参数是生产者客户端的重要配置&＃xff0c;发送消息的时候就可设置这个参数。该参数有三个值可配置&＃xff1a;0、1、All。

第一种是设为0&＃xff0c;意思是生产者把消息发送出去之后&＃xff0c;之后这消息是死是活咱就不管了&＃xff0c;有那么点发后即忘的意思&＃xff0c;说出去的话就不负责了。不负责自然这消息就有可能丢失&＃xff0c;那就把可用性也丢失了。

第二种是设为1&＃xff0c;意思是生产者把消息发送出去之后&＃xff0c;这消息只要顺利传达给了Leader&＃xff0c;其他Follower有没有同步就无所谓了。存在一种情况&＃xff0c;Leader刚收到了消息&＃xff0c;Follower还没来得及同步Broker就宕机了&＃xff0c;但生产者已经认为消息发送成功了&＃xff0c;那么此时消息就丢失了。注意&＃xff0c;设为1是Kafka的默认配置&＃xff01;可见Kafka的默认配置也不是那么高可用&＃xff0c;而是对高可用和高吞吐量做了权衡折中。

第三种是设为All&＃xff08;或者-1&＃xff09;&＃xff0c;意思是生产者把消息发送出去之后&＃xff0c;不仅Leader要接收到&＃xff0c;ISR列表中的Follower也要同步到&＃xff0c;生产者才会任务消息发送成功。

进一步思考&＃xff0c;Asks&＃61;All就不会出现丢失消息的情况吗&＃xff1f;答案是否。当ISR列表只剩Leader的情况下&＃xff0c;Asks&＃61;All相当于Asks&＃61;1&＃xff0c;这种情况下如果节点宕机了&＃xff0c;还能保证数据不丢失吗&＃xff1f;因此只有在Asks&＃61;All并且有ISR中有两个副本的情况下才能保证数据不丢失。

解决问题

绕了一大圈&＃xff0c;了解了Kafka的高可用机制&＃xff0c;终于回到我们一开始的问题本身&＃xff0c;Kafka的一个节点宕机后为什么不可用&＃xff1f;

我在开发测试环境配置的Broker节点数是3&＃xff0c;Topic是副本数为3&＃xff0c;Partition数为6&＃xff0c;Asks参数为1。

当三个节点中某个节点宕机后&＃xff0c;集群首先会怎么做&＃xff1f;没错&＃xff0c;正如我们上面所说的&＃xff0c;集群发现有Partition的Leader失效了&＃xff0c;这个时候就要从ISR列表中重新选举Leader。如果ISR列表为空是不是就不可用了&＃xff1f;并不会&＃xff0c;而是从Partition存活的副本中选择一个作为Leader&＃xff0c;不过这就有潜在的数据丢失的隐患了。

所以&＃xff0c;只要将Topic副本个数设置为和Broker个数一样&＃xff0c;Kafka的多副本冗余设计是可以保证高可用的&＃xff0c;不会出现一宕机就不可用的情况&＃xff08;不过需要注意的是Kafka有一个保护策略&＃xff0c;当一半以上的节点不可用时Kafka就会停止&＃xff09;。那仔细一想&＃xff0c;Kafka上是不是有副本个数为1的Topic&＃xff1f;

问题出在了__consumer_offset上&＃xff0c;__consumer_offset是一个Kafka自动创建的Topic&＃xff0c;用来存储消费者消费的offset&＃xff08;偏移量&＃xff09;信息&＃xff0c;默认Partition数为50。而就是这个Topic&＃xff0c;它的默认副本数为1。如果所有的Partition都存在于同一台机器上&＃xff0c;那就是很明显的单点故障了&＃xff01;当将存储__consumer_offset的Partition的Broker给Kill后&＃xff0c;会发现所有的消费者都停止消费了。

这个问题怎么解决&＃xff1f;

第一点&＃xff0c;需要将__consumer_offset删除&＃xff0c;注意这个Topic时Kafka内置的Topic&＃xff0c;无法用命令删除&＃xff0c;我是通过将logs删了来实现删除。

第二点&＃xff0c;需要通过设置offsets.topic.replication.factor为3来将__consumer_offset的副本数改为3。

通过将__consumer_offset也做副本冗余后来解决某个节点宕机后消费者的消费问题。

往期推荐

Kafka压力测试

Kafka的高可用与生产消费过程解析

kafka知识体系-副本同步机制

Kafka消息丢失与消费精确一次性

Kafka性能调优分析-线上环境篇

Kafka数据管道

kafka 高吞吐量性能揭秘

万亿级消息背后: 小米消息队列的实践

apache Kafka概要介绍

好看的人&＃xff0c;从不白嫖

推荐阅读

cookie
redis是干嘛的,springboot vue项目

springboot基于redis配置session共享项目环境配置pom.xml引入依赖application.properties配置Cookie序列化（高版本不需要）测试启 ... [详细]

蜡笔小新 2023-10-16 14:12:27
cookie
后台获取视图对应的字符串

1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注：不会执行对应的ac ... [详细]

蜡笔小新 2023-12-13 18:03:01
cookie
MVC设计模式的介绍和演化过程

本文介绍了MVC设计模式的基本概念和原理，以及在实际项目中的演化过程。通过分离视图、模型和控制器，实现了代码的解耦和重用，提高了项目的可维护性和可扩展性。详细讲解了分离视图、分离模型和分离控制器的具体步骤和规则，以及它们在项目中的应用。同时，还介绍了基础模型的封装和控制器的命名规则。该文章适合对MVC设计模式感兴趣的读者阅读和学习。 ... [详细]

蜡笔小新 2023-12-11 14:58:14
get
Smarty / views / templates中的数据库调用 - Database calls in Smarty/views/templates

Todayatworksomeonetriedtoconvincemethat:今天在工作中有人试图说服我:{$obj->getTableInfo()}isfine ... [详细]

蜡笔小新 2023-12-10 20:58:53
version
Android日历提醒软件开源项目分享及使用教程

本文介绍了一款名为Android日历提醒软件的开源项目，作者分享了该项目的代码和使用教程，并提供了GitHub项目地址。文章详细介绍了该软件的主界面风格、日程信息的分类查看功能，以及添加日程提醒和查看详情的界面。同时，作者还提醒了读者在使用过程中可能遇到的Android6.0权限问题，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-10 19:01:03
version
Django + Ansible 主机管理(有源码)

本文给大家介绍如何利用DjangoAnsible进行Web项目管理。Django介绍一个可以使Web开发工作愉快并且高效的Web开发框架，能够以最小的代价构建和维护高 ... [详细]

蜡笔小新 2023-10-17 18:59:15
version
mongodb数据迁移,程序员未来职场之路

一面自我介绍对象相等的判断，equals方法实现。可以简单描述挫折，并说明自己如何克服，最终有哪些收获。职业规划表明自己决心，首先自己不准备继续求学了，必须招工作了。希望去哪 ... [详细]

蜡笔小新 2023-10-17 13:57:50
version
我们如何在kafkaconect分发模式下手动定义主题分区和复制

我正在使用sql-serverkafka-connect和debezium监视sqlserver数据库，但是当我发布并运行我的wo ... [详细]

蜡笔小新 2023-10-16 12:54:59
int
HDU 2372 El Dorado（DP）的最长上升子序列长度求解方法

本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法，通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]

蜡笔小新 2023-12-14 15:08:18
default
解决Mac上无法使用localhost连接mysql的问题

本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题，并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别，指出了使用socket方式连接导致连接失败的原因。此外，还提供了相关链接供读者深入了解。 ... [详细]

蜡笔小新 2023-12-13 17:48:58
int
javaweb多图片打包下载，弹出提示框问题_html/css_WEBITnose

在springmvc框架中，前台ajax调用方法，对图片批量下载，如何弹出提示保存位置选框？Controller方法 ... [详细]

蜡笔小新 2023-12-12 14:56:31
header
ScrollView嵌套Collectionview无痕衔接四向滚动，支持自定义TitleView

本文介绍了如何实现ScrollView嵌套Collectionview无痕衔接四向滚动，并支持自定义TitleView。通过使用MainScrollView作为最底层，headView作为上部分，TitleView作为中间部分，Collectionview作为下面部分，实现了滚动效果。同时还介绍了使用runtime拦截_notifyDidScroll方法来实现滚动代理的方法。具体实现代码可以在github地址中找到。 ... [详细]

蜡笔小新 2023-12-12 11:38:19
header
开发笔记:软件测试知识点之数据库压力测试方法小结

篇首语：本文由编程笔记#小编为大家整理，主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-10 20:29:19
int
MySQL数据库锁机制及其应用（数据库锁的概念）

本文介绍了MySQL数据库锁机制及其应用。数据库锁是计算机协调多个进程或线程并发访问某一资源的机制，在数据库中，数据是一种供许多用户共享的资源，如何保证数据并发访问的一致性和有效性是数据库必须解决的问题。MySQL的锁机制相对简单，不同的存储引擎支持不同的锁机制，主要包括表级锁、行级锁和页面锁。本文详细介绍了MySQL表级锁的锁模式和特点，以及行级锁和页面锁的特点和应用场景。同时还讨论了锁冲突对数据库并发访问性能的影响。 ... [详细]

蜡笔小新 2023-12-10 15:54:07
int
STL迭代器的种类及其功能介绍

本文介绍了标准模板库(STL)定义的五种迭代器的种类和功能。通过图表展示了这几种迭代器之间的关系，并详细描述了各个迭代器的功能和使用方法。其中，输入迭代器用于从容器中读取元素，输出迭代器用于向容器中写入元素，正向迭代器是输入迭代器和输出迭代器的组合。本文的目的是帮助读者更好地理解STL迭代器的使用方法和特点。 ... [详细]

蜡笔小新 2023-12-10 15:17:25

孔阳kyy

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章