热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Kafka消息存储机制详解

本文详细解析了Kafka中消息的物理存储结构,包括消息在日志文件中的具体存储方式及各字段的含义,同时介绍了分区、段落文件以及索引文件的管理机制。

消息的物理存储结构

在Kafka中,每条消息在日志文件(log)中都有详细的存储格式,包括多个关键字段,这些字段共同决定了消息的结构和功能。

字段描述
8字节偏移量(Offset)每个消息在分区内的唯一标识符,用于确定消息的位置。
4字节消息大小消息体的总大小。
4字节CRC32校验码用于验证消息的完整性和准确性。
1字节“魔数”(Magic)表示Kafka服务程序的协议版本号。
1字节属性(Attributes)包含版本、压缩类型等信息。
4字节键长表示消息键的长度,若键不存在,则该值为-1。
K字节键(Key)消息的键,可选字段。
消息体(Value)实际的消息数据。

例如,一条典型的消息可能如下所示:

offset: 3 position: 211 CreateTime: 1606446771205 isvalid: true keysize: -1 valuesize: 7 magic: 2 compresscodec: NONE producerId: -1 producerEpoch: -1 sequence: -1 isTransactional: false headerKeys: [] payload: 4567890 

基本概念

1. Kafka中的主题(Topic)是一个逻辑概念,所有消息根据分区(Partition)进行物理存储。
2. 分区对应于文件系统中的目录,命名格式为topicName-编号,编号从0开始。
3. 每个分区的数据进一步划分为多个段(Segment),每个段由.log和.index两个文件组成。
4. .log文件存储实际的消息数据,而.index文件则存储消息的索引信息,便于快速定位。

例如,名为pet的主题有3个分区,其目录结构如下:

drwxr-xr-x 2 root root 215 12月 1 10:27 pet-0 drwxr-xr-x 2 root root 215 12月 1 09:51 pet-1 drwxr-xr-x 2 root root 215 12月 1 09:51 pet-2 

进入pet-0分区,可以看到如下文件结构:

-rw-r--r-- 1 root root 10485760 12月 1 09:44 00000000000000000000.index -rw-r--r-- 1 root root 4851 12月 1 17:29 00000000000000000000.log -rw-r--r-- 1 root root 10485756 12月 1 09:44 00000000000000000000.timeindex -rw-r--r-- 1 root root 34 12月 1 09:44 00000000000000000000.txnindex -rw-r--r-- 1 root root 240 12月 1 09:44 00000000000000000054.snapshot -rw-r--r-- 1 root root 28 12月 1 10:27 leader-epoch-checkpoint 

其中,.index文件存储了稀疏的键值对,.log文件则存储了实际的消息内容。

消费者如何查找信息?

1. 消费者首先根据消息的偏移量(offset)查找索引文件(.index)。由于索引文件是以稀疏的方式存储的,可以通过二分查找快速定位。
2. 找到相应的索引文件后,根据偏移量找到对应的物理位置(position)。
3. 利用物理位置在日志文件(.log)中查找具体的消息内容,通过比较每条消息的偏移量来确定目标消息。

日志文件过大如何处理?

Kafka对日志文件的大小和生命周期有明确的管理策略:
1. 大小限制:单个日志文件的最大大小通常设置为1GB,超过此大小会自动创建新的日志文件。
2. 时间限制:根据配置的保留策略,消息会在一定时间后被删除以释放磁盘空间。例如,设置保留时间为2天,意味着消息在发布后2天内可被消费,之后将被删除。

日志文件与索引文件的区别

1. 索引文件(.index)中存储的是稀疏的键值对,主要用于快速定位消息。
2. 日志文件(.log)中存储的是实际的消息内容,每个消息都有固定的格式和字段。

文件命名规则

1. 日志文件和索引文件一一对应。
2. 日志文件的命名基于其第一条记录的偏移量值。

图解

Kafka消息存储机制示意图

总结

  • Kafka的消息存储在分区目录下的日志文件中,索引文件则用于快速查找消息。
  • 消费者通过偏移量(offset)在索引文件中找到物理位置(position),再在日志文件中查找具体的消息内容。

推荐阅读
  • 深入理解Kafka架构
    本文将详细介绍Kafka的内部工作机制,包括其工作流程、文件存储机制、生产者与消费者的具体实现,以及如何通过高效读写技术和Zookeeper支持来确保系统的高性能和稳定性。 ... [详细]
  • 原作者:小甲鱼(注:最左边是文件头的偏移量。)IMAGE_DOS_HEADERSTRUCT{+0hWORDe_magicMagi ... [详细]
  • 深入探讨PHP中的输出缓冲技术(Output Buffering)
    本文深入解析了PHP中输出缓冲(Output Buffering)的原理及其在Web开发中的应用,特别是如何通过输出缓冲技术有效管理HTTP头部信息,提高代码的灵活性与健壮性。 ... [详细]
  • 应用场景在开发中,我们经常需要把一些随时可能变化的属性配置到配置文件中,这样耦合性低,方便维护。SpringBoot在这方面为我们提供了很大的便捷,我们可以很轻易的将propert ... [详细]
  • 最佳PHP源码加密工具推荐
    本文探讨了几款高效的PHP源码加密工具,旨在帮助开发者保护其代码免受未授权访问。文章不仅介绍了商业软件的选择,还提供了一些免费且实用的加密工具及其使用方法。 ... [详细]
  • Python 第三天学习笔记
    本文详细介绍了 Python 编程的第三天学习内容,包括字符编码、文件处理以及函数的基本概念和使用方法。 ... [详细]
  • 高效处理大文件:单线程与多线程下的词频统计方法
    本文探讨了在处理大文件时,如何通过单线程和多线程的方式使用Buffer流进行词频统计,以避免一次性加载文件导致的内存溢出问题,并提供了具体的实现代码。 ... [详细]
  • GNU GRUB(简称GRUB)是一个来自GNU项目的支持多启动的引导加载程序。它允许用户在同一台计算机上安装多个操作系统,并在启动时选择希望启动的系统。 ... [详细]
  • 本文详细解析了muduo库中的Socket封装及字节序转换功能。主要涉及`Endian.h`和`SocketsOps.h`两个头文件,以及`Socket.h`和`InetAddress.h`类的实现。 ... [详细]
  • 车载T-BOX智能网联终端的设计与实现
    本文介绍了一款基于瑞萨RH850微控制器、TICC2640R2F蓝牙微控制器和高通MDM9628处理器的T-BOX车载终端的设计。该终端通过集成CAN总线、GPS定位、数据加密、蓝牙通信和LTE无线数据传输技术,实现了车辆信息的高效采集与云端通信,支持远程车辆控制和诊断等功能。 ... [详细]
  • 本文介绍了数字音视频编解码技术标准,特别是中国自主研发的AVS标准,及其在短视频软件开发中的应用。文章探讨了AVS标准的发展历程、技术特点以及与国际标准的对比。 ... [详细]
  • MQTT协议:轻量级消息传输的基石
    MQTT(Message Queuing Telemetry Transport,消息队列遥测传输)是一种基于发布/订阅模式的轻量级通信协议,适用于低带宽、高延迟或不可靠的网络环境。该协议基于TCP/IP构建,由IBM在1999年首次推出,旨在通过最小化网络流量和代码量,为远程设备提供高效、可靠的消息传输服务。 ... [详细]
  • 简述嵌入式Linux系统一般是将应用程序与文件系统、内核、资源文件等放在不同的分区,产品量产后内核、文件系统这些一般不会升级,应用程序可能升级会比较多 ... [详细]
  • C# WPF 打字射击游戏开发
    介绍了一个基于C#和WPF技术的简单打字射击游戏的实现方法,包括字母的生成、移动、消除以及基本的游戏界面设计。 ... [详细]
  • 本文详细解析了Java面试中常见的问题及答案,旨在帮助求职者更好地准备面试,提高通过率。 ... [详细]
author-avatar
菠萝97
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有