当前位置: 开发笔记 > 编程语言 > 正文

kafka分区与分组原理_图文详解：Kafka到底有哪些秘密让我对它情有独钟呢？

作者：过去丶真的過卜去 | 来源：互联网 | 2023-08-08 18:27

前言好了，开始进入正题。今天给大家带来的的是关于我们的老朋友Kafka的来世今生。随着对实时性的要求越来越高，那么在庞大的数据的传输过程中怎么能保证数据

前言

好了&＃xff0c;开始进入正题。今天给大家带来的的是关于我们的老朋友Kafka的来世今生。

随着对实时性的要求越来越高&＃xff0c;那么在庞大的数据的传输过程中怎么能保证数据的快速传递呢&＃xff0c;由此&＃xff0c;消息队列产生了。

“消息”是在两台计算机间传送的数据单位。消息可以非常简单&＃xff0c;例如只包含文本字符串&＃xff1b;也可以更复杂&＃xff0c;可能包含嵌入对象。

消息被发送到队列中。“消息队列”是在消息的传输过程中保存消息的容器。Kafka是一个分布式消息队列对我们来说掌握它是必不可少的。

本文对 Kafka 的基本组件的实现细节及其基本应用进行了详细介绍&＃xff0c;同时&＃xff0c;也熬了几天夜画了图解&＃xff0c;希望能让大家对 Kafka 核心知识的有了更深刻的理解&＃xff0c;最后也总结了 Kafka 在实际业务中的应用。跟着小羽一起再来熟悉一下这些属于Kafka的小秘密吧&＃xff1a;

Kafka 概念

Kafka 是一种高吞吐量、分布式、基于发布/订阅的消息系统&＃xff0c;最初由 LinkedIn 公司开发&＃xff0c;使用Scala 语言编写&＃xff0c;目前是 Apache 的开源项目。

image.png

Kafka 主要组件

broker
&＃xff1a;Kafka 服务器&＃xff0c;负责消息存储和转发
topic
&＃xff1a;消息类别&＃xff0c;Kafka 按照 topic 来分类消息

partition
&＃xff1a;topic 的分区&＃xff0c;一个 topic 可以包含多个 partition&＃xff0c;topic 消息保存在各个 partition 上

offset
&＃xff1a;消息在日志中的位置&＃xff0c;可以理解是消息在 partition 上的偏移量&＃xff0c;也是代表该消息的唯一序号

Producer
&＃xff1a;消息生产者
Consumer
&＃xff1a;消息消费者
Consumer Group
&＃xff1a;消费者分组&＃xff0c;每个 Consumer 必须属于一个 group
Zookeeper
&＃xff1a;保存着集群 broker、topic、partition 等 meta 数据&＃xff1b;另外&＃xff0c;还负责 broker 故障发现&＃xff0c;partition leader 选举&＃xff0c;负载均衡等功能

Kafka 优点

解耦
&＃xff1a;消息系统在处理过程中间插入了一个隐含的、基于数据的接口层&＃xff0c;两边的处理过程都要实现这一接口。这允许你独立的扩展或修改两边的处理过程&＃xff0c;只要确保它们遵守同样的接口约束。
冗余
&＃xff1a;消息队列把数据进行持久化直到它们已经被完全处理&＃xff0c;通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中&＃xff0c;在把一个消息从队列中删除之前&＃xff0c;需要你的处理系统明确的指出该消息已经被处理完毕&＃xff0c;从而确保你的数据被安全的保存直到你使用完毕。
扩展性
&＃xff1a;因为消息队列解耦了你的处理过程&＃xff0c;所以增大消息入队和处理的频率是很容易的&＃xff0c;只要另外增加处理过程即可。不需要改变代码、不需要调节参数。扩展就像调大电力按钮一样简单。
灵活性 & 峰值处理能力
&＃xff1a;使用消息队列能够使关键组件顶住突发的访问压力&＃xff0c;而不会因为突发的超负荷的请求而完全崩溃。
可恢复性
&＃xff1a;消息队列降低了进程间的耦合度&＃xff0c;所以即使一个处理消息的进程挂掉&＃xff0c;加入队列中的消息仍然可以在系统恢复后被处理。
顺序保证
&＃xff1a;大部分消息队列本来就是排序的&＃xff0c;并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition内的消息的有序性。
缓冲
&＃xff1a;消息队列通过一个缓冲层来帮助任务最高效率的执行。写入队列的处理会尽可能的快速。该缓冲有助于控制和优化数据流经过系统的速度。
异步通信
&＃xff1a;消息队列提供了异步处理机制&＃xff0c;允许用户把一个消息放入队列&＃xff0c;但并不立即处理它。想向队列中放入多少消息就放多少&＃xff0c;然后在需要的时候再去处理它们。

Kafka 应用场景

活动追踪
&＃xff1a;跟踪网站⽤用户与前端应⽤用程序发⽣生的交互&＃xff0c;如&＃xff1a;网站PV/UV分析
传递消息
&＃xff1a;系统间异步的信息交互&＃xff0c;如&＃xff1a;营销活动&＃xff08;注册后发送券码福利利&＃xff09;
日志收集
&＃xff1a;收集系统及应⽤用程序的度量量指标及⽇日志&＃xff0c;如&＃xff1a;应用监控和告警
提交日志
&＃xff1a;将数据库的更更新发布到kafka上&＃xff0c;如&＃xff1a;交易统计

Kafka 数据存储设计

partition 的数据文件

partition 中的每条 Message 包含三个属性&＃xff1a;offset&＃xff0c;MessageSize&＃xff0c;data&＃xff0c;其中 offset 表示 Message 在这个 partition 中的偏移量&＃xff0c;offset 不是该 Message 在 partition 数据文件中的实际存储位置&＃xff0c;而是逻辑上一个值&＃xff0c;它唯一确定了 partition 中的一条 Message&＃xff0c;可以认为 offset 是 partition 中 Message 的 id&＃xff1b;MessageSize 表示消息内容 data 的大小&＃xff1b;data 为 Message 的具体内容。

数据文件分段 segment

partition 物理上由多个 segment 文件组成&＃xff0c;每个 segment 大小相等&＃xff0c;顺序读写。每个 segment数据文件以该段中最小的 offset 命名&＃xff0c;文件扩展名为.log。这样在查找指定 offset 的 Message 的时候&＃xff0c;用二分查找就可以定位到该 Message 在哪个 segment 数据文件中。

数据文件索引

Kafka 为每个分段后的数据文件建立了索引文件&＃xff0c;文件名与数据文件的名字是一样的&＃xff0c;只是文件扩展名为.index。index 文件中并没有为数据文件中的每条 Message 建立索引&＃xff0c;而是采用了稀疏存储的方式&＃xff0c;每隔一定字节的数据建立一条索引。这样避免了索引文件占用过多的空间&＃xff0c;从而可以将索引文件保留在内存中。

Zookeeper 在 kafka 的作用

无论是 kafka 集群&＃xff0c;还是 producer 和 consumer 都依赖于 zookeeper 来保证系统可用性集群保存一些meta信息。

Kafka 使用 zookeeper 作为其分布式协调框架&＃xff0c;很好的将消息生产、消息存储、消息消费的过程结合在一起。

同时借助 zookeeper&＃xff0c;kafka 能够生产者、消费者和 broker 在内的所以组件在无状态的情况下&＃xff0c;建立起生产者和消费者的订阅关系&＃xff0c;并实现生产者与消费者的负载均衡。

生产者设计

负载均衡

由于消息 topic 由多个 partition 组成&＃xff0c;且 partition 会均衡分布到不同 broker 上&＃xff0c;因此&＃xff0c;为了有效利用 broker 集群的性能&＃xff0c;提高消息的吞吐量&＃xff0c;producer 可以通过随机或者 hash 等方式&＃xff0c;将消息平均发送到多个 partition 上&＃xff0c;以实现负载均衡。

批量发送

是提高消息吞吐量重要的方式&＃xff0c;Producer 端可以在内存中合并多条消息后&＃xff0c;以一次请求的方式发送了批量的消息给 broker&＃xff0c;从而大大减少 broker 存储消息的 IO 操作次数。但也一定程度上影响了消息的实时性&＃xff0c;相当于以时延代价&＃xff0c;换取更好的吞吐量。

压缩

Kafka支持以集合&＃xff08;batch&＃xff09;为单位发送消息&＃xff0c;在此基础上&＃xff0c;Kafka还支持对消息集合进行压缩&＃xff0c;Producer 端可以通过 GZIP 或 Snappy 格式对消息集合进行压缩。Producer 端进行压缩之后&＃xff0c;在Consumer 端需进行解压。压缩的好处就是减少传输的数据量&＃xff0c;减轻对网络传输的压力&＃xff0c;在对大数据处理上&＃xff0c;瓶颈往往体现在网络上而不是 CPU&＃xff08;压缩和解压会耗掉部分 CPU 资源&＃xff09;。

那么如何区分消息是压缩的还是未压缩的呢&＃xff0c;Kafka在消息头部添加了一个描述压缩属性字节&＃xff0c;这个字节的后两位表示消息的压缩采用的编码&＃xff0c;如果后两位为0&＃xff0c;则表示消息未被压缩。

消费者设计

Consumer Group

同一 Consumer Group 中的多个 Consumer 实例&＃xff0c;不同时消费同一个 partition&＃xff0c;等效于队列模式。partition 内消息是有序的&＃xff0c;Consumer 通过 pull 方式消费消息。Kafka 不删除已消费的消息对于 partition&＃xff0c;顺序读写磁盘数据&＃xff0c;以时间复杂度 O(1)方式提供消息持久化能力。

实践应用

Kafka 作为消息系统

kafka 通过在主题中具有并行性概念 - 分区 - &＃xff0c;Kafka能够在消费者流程池中提供订购保证和负载平衡。这是通过将主题中的分区分配给使用者组中的使用者来实现的&＃xff0c;以便每个分区仅由该组中的一个使用者使用。通过这样做&＃xff0c;我们确保使用者是该分区的唯一读者并按顺序使用数据。由于有许多分区&＃xff0c;这仍然可以平衡许多消费者实例的负载。但请注意&＃xff0c;消费者组中的消费者实例不能超过分区。

Kafka 作为存储系统

Kafka是一个非常好的存储系统。写入Kafka的数据将写入磁盘并进行复制以实现容错。Kafka允许生产者等待确认&＃xff0c;以便在完全复制之前写入不被认为是完整的&＃xff0c;并且即使写入的服务器失败也保证写入仍然存在。

磁盘结构Kafka很好地使用了规模 - 无论服务器上有50 KB还是50 TB的持久数据&＃xff0c;Kafka都会执行相同的操作。

由于认真对待存储并允许客户端控制其读取位置&＃xff0c;您可以将Kafka视为一种专用于高性能&＃xff0c;低延迟提交日志存储&＃xff0c;复制和传播的专用分布式文件系统。

Kafka 用于流处理

对于复杂的转换&＃xff0c;Kafka提供了完全集成的Streams API。这允许构建执行非平凡处理的应用程序&＃xff0c;这些应用程序可以计算流的聚合或将流连接在一起。

此工具有助于解决此类应用程序面临的难题&＃xff1a;处理无序数据&＃xff0c;在代码更改时重新处理输入&＃xff0c;执行有状态计算等。

流API构建在Kafka提供的核心原理上&＃xff1a;它使用生产者和消费者API进行输入&＃xff0c;使用Kafka进行8

有状态存储&＃xff0c;并在流处理器实例之间使用相同的组机制来实现容错。

作者&＃xff1a;浅羽的IT小屋
链接&＃xff1a;https://juejin.cn/post/6904866061347192839

推荐阅读

web
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
web
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
web
视高视频会议系统连接问题及解决方案

本文详细介绍了视高视频会议系统的音频、数据协作、会议交互以及协同办公功能，并探讨了其在实际应用中的优势。系统支持多种语音编解码技术，提供稳定的语音通信；数据协作功能包括远程电子白板、屏幕共享等；会议交互设计人性化，提升会议效率；协同办公模块则进一步增强了系统的实用性和扩展性。 ... [详细]

蜡笔小新 2024-11-12 08:51:13
web
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
web
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
web
PHP 各版本对比：标准版与最新顶级版的详细分析

PHP 各版本对比：标准版与最新顶级版的详细分析 ... [详细]

蜡笔小新 2024-11-11 13:23:25
web
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
web
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
web
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32
python
利用ZFS和Gluster实现分布式存储系统的高效迁移与应用

本文探讨了在Ubuntu 18.04系统中利用ZFS和Gluster文件系统实现分布式存储系统的高效迁移与应用。通过详细的技术分析和实践案例，展示了这两种文件系统在数据迁移、高可用性和性能优化方面的优势，为分布式存储系统的部署和管理提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-08 17:18:57
python
使用OpenSSL自建CA证书（实测有效）

本文详细介绍了如何使用OpenSSL自建CA证书的步骤，包括准备工作、生成CA证书、生成服务器待签证书以及证书签名等过程。 ... [详细]

蜡笔小新 2024-11-13 09:55:03
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
stream
基于Linux开源VOIP系统LinPhone[四]

****************************************************************************************** ... [详细]

蜡笔小新 2024-11-12 11:00:11
stream
单片机入门指南：基础理论与实践

本文介绍了单片机的基础知识及其应用。单片机是一种将微处理器（类似于CPU）、存储器（类似硬盘和内存）以及多种输入输出接口集成在一块硅片上的微型计算机系统。通过详细解析其内部结构和功能，帮助初学者快速掌握单片机的基本原理和实际操作方法。 ... [详细]

蜡笔小新 2024-11-11 23:53:26

过去丶真的過卜去

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章