调优ApacheKafka集群

作者：田字格 | 来源：互联网 | 2023-08-22 02:04

原文地址：http:www.cnblogs.comhuxi2bp6936348.html今天带来一篇译文“调优ApacheKafka集群”，里面有一些观

原文地址&＃xff1a;http://www.cnblogs.com/huxi2b/p/6936348.html

今天带来一篇译文“调优Apache Kafka集群”&＃xff0c;里面有一些观点并无太多新颖之处&＃xff0c;但总结得还算详细。该文从四个不同的目标出发给出了各自不同的参数配置&＃xff0c;值得大家一读~ 原文地址请参考&＃xff1a;https://www.confluent.io/blog/optimizing-apache-kafka-deployment/

&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;

　　Apache Kafka是当前最好的企业级流式处理平台。把你的应用程序链接到Kafka集群&＃xff0c;剩下的所有事情Kafka都可以帮你做了&＃xff1a;自动帮你完成负载均衡&＃xff0c;自动实现Zero-Copy的数据传输、消费者组成员变动时自动的rebalance以及应用状态持久化存储的自动备份以及分区leader自动的故障转移等——运维人员的梦想终于成真了&＃xff01;

————笔者&＃xff1a;最近在看Apache Flink。说到streaming这部分&＃xff0c;Flink可一点都不比Kafka streams差。至于是不是最好的流式处理平台&＃xff0c;仁者见仁吧~~

　　使用默认的Kafka参数配置你就能够从零搭建起一个Kafka集群环境用于开发及测试之用&＃xff0c;但默认配置通常都不匹配你的生产环境&＃xff0c;因此必须要做某种程度的调优。毕竟不同的使用场景有着不同的使用需求和性能指标。而Kafka提供的各种参数就是为了优化这些需求和指标的。Kafka提供了很多配置供用户设置以确保搭建起来的Kafka环境是能够满足需求目标的&＃xff0c;因此详细地去调研这些参数的含义以及针对不同参数值进行测试是非常重要的。所有这些工作都应该在Kafka正式上生产环境前就做好&＃xff0c;并且各种参数的配置要考虑未来集群规模的扩展。

　　执行优化的流程如下图所示&＃xff1a;

明确调优目标
有针对性地配置Kafka server端和clients端参数
执行性能测试&＃xff0c;监控各个指标以确定是否满足需求以及是否有进一步调优的可能

一、确立目标　

　　第一步就是要明确性能调优目标&＃xff0c;主要从4个方面考虑&＃xff1a;吞吐量(throughput)、延时(latency)、持久性(durability)和可用性(availability)。根据实际的使用场景来确定要达到这4个中的哪个(或哪几个)目标。有时候我们可能很难确定自己到底想要什么&＃xff0c;那么此时可以尝试采用这样的方法&＃xff1a;让你的团队坐下来讨论一下原本的业务使用场景然后看看主要的业务目标是什么。确立目标的原因主要有两点&＃xff1a;

“鱼和熊掌不可兼得”——你没有办法最大化所有目标。这4者之间必然存在着权衡(tradeoff)。常见的tradeoff包括&＃xff1a;吞吐量和延时权衡、持久性和可用性之间权衡。但是当我们考虑整个系统时通常都不能孤立地只考虑其中的某一个方面&＃xff0c;而是需要全盘考量。虽然它们之间不是互斥的&＃xff0c;但使所有目标同时达到最优几乎肯定是不可能的
我们需要不断调整Kafka配置参数以实现这些目标&＃xff0c;并确保我们对Kafka的优化是满足用户实际使用场景的需要

　　下面的这些问题可以帮助你确立目标&＃xff1a;

是否期望着Kafka实现高吞吐量(TPS&＃xff0c;即producer生产速度和consumer消费速度)&＃xff0c;比如几百万的TPS&＃xff1f;由于Kafka自身良好的设计&＃xff0c;生产超大数量的消息并不是什么难事。比起传统的数据库或KV存储而言&＃xff0c;Kafka要快得多&＃xff0c;而且使用普通的硬件就能够做到这点
是否期望着Kafka实现低延时(即消息从被写入到被读取之间的时间间隔越小越好)&＃xff1f; 低延时的一个实际应用场景就是平时的聊天程序&＃xff0c;接收到某一条消息越快越好。其他的例子还包括交互性网站中用户期望实时看到好友动态以及物联网中的实时流处理等
是否期望着Kafka实现高持久性&＃xff0c;即被成功提交的消息永远不能丢失&＃xff1f;比如事件驱动的微服务数据管道使用Kafka作为底层数据存储&＃xff0c;那么就要求Kafka不能丢失事件。再比如streaming框架读取持久化存储时一定要确保关键的业务事件不能遗漏等
是否期望着Kafka实现高可用&＃xff1f;即使出现崩溃也不能出现服务的整体宕机。Kafka本身是分布式系统&＃xff0c;天然就是能够对抗崩溃的。如果高可用是你的主要目标&＃xff0c;配置特定的参数确保Kafka可以及时从崩溃中恢复就显得至关重要了

二、配置参数

下面我们将分别讨论这四个目标的优化以及对应的参数设置。这些参数涵盖了producer端、broker端和consumer端的不同配置。如前所述&＃xff0c;很多配置都提现了某种程度的tradeoff&＃xff0c;在使用时一定要弄清楚这些配置的真正含义&＃xff0c;做到有的放矢。

producer端

batch.size
linger.ms
compression.type
acks
retries
max.in.flight.requests.per.connection
buffer.memory

Broker端

default.replication.factor
num.replica.fetchers
auto.create.topics.enable
min.insync.replicas
unclean.leader.election.enable
broker.rack
log.flush.interval.messages
log.flush.interval.ms
unclean.leader.election.enable
min.insync.replicas
num.recovery.threads.per.data.dir

Consumer端

fetch.min.bytes
auto.commit.enable
session.timeout.ms

1 调优吞吐量

Producer端

batch.size &＃61; 100000 - 200000&＃xff08;默认是16384&＃xff0c;通常都太小了&＃xff09;
linger.ms &＃61; 10 - 100 (默认是0)
compression.type &＃61; lz4
acks &＃61; 1
retries &＃61; 0
buffer.memory&＃xff1a;如果分区数很多则适当增加 (默认是32MB)

Consumer端

fetch.min.bytes &＃61; 10 ~ 100000 (默认是1)

2 调优延时

Producer端

linger.ms &＃61; 0
compression.type &＃61; none
acks &＃61; 1

Broker端

num.replica.fetchers&＃xff1a;如果发生ISR频繁进出的情况或follower无法追上leader的情况则适当增加该值&＃xff0c;但通常不要超过CPU核数&＃43;1

Consumer端

fetch.min.bytes &＃61; 1

3 调优持久性

Producer端

replication.factor &＃61; 3
acks &＃61; all
retries &＃61; 相对较大的值&＃xff0c;比如5 ~ 10
max.in.flight.requests.per.connection &＃61; 1 (防止乱序)

Broker端

default.replication.factor &＃61; 3
auto.create.topics.enable &＃61; false
min.insync.replicas &＃61; 2&＃xff0c;即设置为replication factor - 1
unclean.leader.election.enable &＃61; false
broker.rack: 如果有机架信息&＃xff0c;则最好设置该值&＃xff0c;保证数据在多个rack间的分布性以达到高持久化
log.flush.interval.messages和log.flush.interval.ms: 如果是特别重要的topic并且TPS本身也不高&＃xff0c;则推荐设置成比较低的值&＃xff0c;比如1

Consumer端

auto.commit.enable &＃61; false 自己控制位移

4 调优高可用

Broker端

unclean.leader.election.enable &＃61; true
min.insync.replicas &＃61; 1
num.recovery.threads.per.data.dir &＃61; log.dirs中配置的目录数

Consumer端

session.timeout.ms&＃xff1a;尽可能地低

三、指标监控

1 操作系统级指标

内存使用率
磁盘占用率
CPU使用率
打开的文件句柄数
磁盘IO使用率
带宽IO使用率

2 Kafka常规JMX监控

3 易发现瓶颈的JMX监控

4 clients端常用JMX监控

5 broker端ISR相关的JMX监控

　　以上就是这篇原文的简要译文。还是那句话&＃xff0c;里面的很多参数设置都已经司空见惯了&＃xff0c;并无太多新意。不过这篇文章从吞吐量、延时、持久化和可用性4个方面给出了不同的思考。从这一点上来说还是值得一读的。

推荐阅读

jsp
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
jsp
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
int
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
datetime
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
datetime
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
header
Python 伦理黑客技术：深入探讨后门攻击（第三部分）

在《Python 伦理黑客技术：深入探讨后门攻击（第三部分）》中，作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流，难以确定消息批次的结束点，这给后门攻击的实现带来了挑战。为了解决这一问题，文章提出了一系列有效的技术方案，包括使用特定的分隔符和长度前缀，以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性，还为安全研究人员提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 16:33:02
header
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
jsp
Nginx 反向代理配置与应用指南

本文详细介绍了 Nginx 反向代理的配置与应用方法。首先，用户可以从官方下载页面（http://nginx.org/en/download.html）获取最新稳定版 Nginx，推荐使用 1.14.2 版本。下载并解压后，通过双击 `nginx.exe` 文件启动 Nginx 服务。文章进一步探讨了反向代理的基本原理及其在实际应用场景中的配置技巧，包括负载均衡、缓存管理和安全设置等，为用户提供了一套全面的实践指南。 ... [详细]

蜡笔小新 2024-11-09 12:57:40
int
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
int
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
config
LDAP服务器配置与管理

本文介绍如何通过安装和配置SSSD服务来统一管理用户账户信息，并实现其他系统的登录调用。通过图形化交互界面配置LDAP服务器，确保用户账户信息的集中管理和安全访问。 ... [详细]

蜡笔小新 2024-11-13 18:19:52
int
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
header
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
header
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
config
如何在Linux中通过编程手段禁用硬件预取功能？

本文探讨了如何通过编程手段在Linux系统中禁用硬件预取功能。基于Intel® Core™微架构的应用性能优化需求，文章详细介绍了相关配置方法和代码实现，旨在帮助开发人员有效控制硬件预取行为，提升应用程序的运行效率。 ... [详细]

蜡笔小新 2024-11-10 14:02:38

田字格

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章