前言
Kafka起初是由LinkedIn公司采用Scala语言开发的-一个多分区、多副本且基于ZooKeeper协调的分布式消息系统,现已被捐献给Apache基金会。目前Kafka已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。
目前越来越多的开源分布式处理系统如Cloudera、Storm、 Spark、 Flink等都支持与Kafka集成。
Kafka之所以受到越来越多的青睐,与它所“扮演”的三大角色是分不开的:
消息系统: Kafka 和传统的消息系统( 也称作消息中间件)都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时,Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。
存储系统: Kafka 把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险。也正是得益于Kafka的消息持久化功能和多副本机制,我们可以把Kafka作为长期的数据存储系统来使用,只需要把对应的数据保留策略设置为“永久”或启用主题的日志压缩功能即可。
流式处理平台:Kafka不仅为每个流行的流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理类库,比如窗口、连接、变换和聚合等各类操作。
初识Kafka
- 基本概念
- 安装与配置
- 生产与消费
- 服务端参数配置
生产者
客户端开发
- 必要的参数配置
- 消息的发送
- 序列化
- 分区器
- 生产者拦截器
原理分析
整体架构
元数据的更新
重要的生产者参数
消费者
消费者与消费组
客户端开发
- 要的参数配置
- 订阅主题与分区
- 反序列化
- 消息消费
- 位移提交
- 控制或关闭消费
- 指定位移消费
- 再均衡
- 消费者拦截器
- 多线程实现
- 重要的消费者参数
主题与分区
主题的管理
- 创建主题
- 分区副本的分配
- 查看主题
- 修改主题
- 配置管理
- 主题端参数
- 删除主题
初识KafkaAdminClient
- 基本使用
- 主题合法性验证
分区的管理
- 优先副本的选举
- 分区重分配
- 复制限流
- 修改副本因子
如何选择合适的分区数
- 性能测试工具
- 分区数越多吞吐量就越高吗.
- 分区数的上限
- 考量因素
日志存储
文件目录布局
日志格式的演变
- v0版本
- v1版本
- 消息压缩
- 变长字段
- v2版本
日志索引
- 偏移量索引
- 时间戳索引
日志清理
- 日志删除
- 日志压缩
磁盘存储
- 页缓存
- 磁盘I/O流程
- 零拷贝
深入服务端
协议设计
时间轮
延时操作
控制器
- 控制器的选举及异常恢复
- 优雅关闭
- 分区leader的选举
参数解密
- broker.id
- bootstrap.servers
- 服务端参数列表.
深入客户端
分区分配策略
- RangeAssignor分配策略
- RoundRobinAssignor分配策略
- StickyAssignor分配策略
- 自定义分区分配策略
消费者协调器和组协调器
- 旧版消费者客户端的问题
- 再均衡的原理
consumer_ offsets 剖析
事务
- 消息传输保障
- 幂等
- 事务
可靠性探究
副本剖析
- 失效副本
- ISR的伸缩
- LEO与HW
- Leader Epoch的介入
- 为什么不支持读写分离
日志同步机制
可靠性分析
Kafka应用
命令行工具
- 消费组管理
- 消费位移管理
- 手动删除消息
Kafka Connect
- 独立模式
- REST AP
- 分布式模式
Kafka Mirror Maker
Kafka Streams
Kafka监控
监控数据的来源
- OneMinuteRate
- 获取监控指标
消费滞后
同步失效分区
监控指标说明
监控模块
高级应用
过期时间(TTL)
延时队列
死信队列和重试队列
消息路由
消息轨迹
消息审计
消息代理
- 快速入门
- RESTAPI介绍及示例
- 服务端配置及部署
- 应用思考
消息中间件选型
- 各类消息中间件简述
- 选型要点概述
- 消息中间件选型误区探讨
Kafka与Spark的集成
Spark的安装及简单应用
Spark编程模型
Spark的运行结构
Spark Streaming简介
Kafka与Spark Streaming的整合
Spark SQL
Structured Streaming
Kafka与Structured Streaming的整合
Kafka源码环境搭建
目录