当前位置: 开发笔记 > 编程语言 > 正文

大白话带你认识Kafka，面试不怕不怕了~

作者：huai | 来源：互联网 | 2023-09-23 02:22

一、Kafka基础消息系统的作用应该大部份小伙伴都清楚

一、Kafka基础

消息系统的作用

应该大部份小伙伴都清楚&＃xff0c;用机油装箱举个例子

所以消息系统就是如上图我们所说的仓库&＃xff0c;能在中间过程作为缓存&＃xff0c;并且实现解耦合的作用。

引入一个场景&＃xff0c;我们知道中国移动&＃xff0c;中国联通&＃xff0c;中国电信的日志处理&＃xff0c;是交给外包去做大数据分析的&＃xff0c;假设现在它们的日志都交给了你做的系统去做用户画像分析。

按照刚刚前面提到的消息系统的作用&＃xff0c;我们知道了消息系统其实就是一个模拟缓存&＃xff0c;且仅仅是起到了缓存的作用而并不是真正的缓存&＃xff0c;数据仍然是存储在磁盘上面而不是内存。

1.Topic 主题

kafka学习了数据库里面的设计&＃xff0c;在里面设计了topic&＃xff08;主题&＃xff09;&＃xff0c;这个东西类似于关系型数据库的表

此时我需要获取中国移动的数据&＃xff0c;那就直接监听TopicA即可

2.Partition 分区

kafka还有一个概念叫Partition&＃xff08;分区&＃xff09;&＃xff0c;分区具体在服务器上面表现起初就是一个目录&＃xff0c;一个主题下面有多个分区&＃xff0c;这些分区会存储到不同的服务器上面&＃xff0c;或者说&＃xff0c;其实就是在不同的主机上建了不同的目录。这些分区主要的信息就存在了.log文件里面。跟数据库里面的分区差不多&＃xff0c;是为了提高性能。

至于为什么提高了性能&＃xff0c;很简单&＃xff0c;多个分区多个线程&＃xff0c;多个线程并行处理肯定会比单线程好得多

Topic和partition像是HBASE里的table和region的概念&＃xff0c;table只是一个逻辑上的概念&＃xff0c;真正存储数据的是region&＃xff0c;这些region会分布式地存储在各个服务器上面&＃xff0c;对应于kafka&＃xff0c;也是一样&＃xff0c;Topic也是逻辑概念&＃xff0c;而partition就是分布式存储单元。这个设计是保证了海量数据处理的基础。我们可以对比一下&＃xff0c;如果HDFS没有block的设计&＃xff0c;一个100T的文件也只能单独放在一个服务器上面&＃xff0c;那就直接占满整个服务器了&＃xff0c;引入block后&＃xff0c;大文件可以分散存储在不同的服务器上。

注意&＃xff1a;

1.分区会有单点故障问题&＃xff0c;所以我们会为每个分区设置副本数

2.分区的编号是从0开始的

3.Producer - 生产者

往消息系统里面发送数据的就是生产者

4.Consumer - 消费者

从kafka里读取数据的就是消费者

5.Message - 消息

kafka里面的我们处理的数据叫做消息

二、kafka的集群架构

创建一个TopicA的主题&＃xff0c;3个分区分别存储在不同的服务器&＃xff0c;也就是broker下面。Topic是一个逻辑上的概念&＃xff0c;并不能直接在图中把Topic的相关单元画出

需要注意&＃xff1a;kafka在0.8版本以前是没有副本机制的&＃xff0c;所以在面对服务器宕机的突发情况时会丢失数据&＃xff0c;所以尽量避免使用这个版本之前的kafka

Replica - 副本

kafka中的partition为了保证数据安全&＃xff0c;所以每个partition可以设置多个副本。

此时我们对分区0,1,2分别设置3个副本&＃xff08;其实设置两个副本是比较合适的&＃xff09;

而且其实每个副本都是有角色之分的&＃xff0c;它们会选取一个副本作为leader&＃xff0c;而其余的作为follower&＃xff0c;我们的生产者在发送数据的时候&＃xff0c;是直接发送到leader partition里面&＃xff0c;然后follower partition会去leader那里自行同步数据&＃xff0c;消费者消费数据的时候&＃xff0c;也是从leader那去消费数据的。

Consumer Group - 消费者组

我们在消费数据时会在代码里面指定一个group.id,这个id代表的是消费组的名字&＃xff0c;而且这个group.id就算不设置&＃xff0c;系统也会默认设置

conf.setProperty(group.id,tellYourDream)

我们所熟知的一些消息系统一般来说会这样设计&＃xff0c;就是只要有一个消费者去消费了消息系统里面的数据&＃xff0c;那么其余所有的消费者都不能再去消费这个数据。

可是 Kafka 并不是这样&＃xff0c;比如现在 ConsumerA 去消费了一个 TopicA 里面的数据&＃xff1a;

consumerA: group.id &＃61; a consumerB: group.id &＃61; a consumerC: group.id &＃61; b consumerD: group.id &＃61; b

再让 ConsumerB 也去消费 TopicA 的数据&＃xff0c;它是消费不到了&＃xff0c;但是我们在 ConsumerC 中重新指定一个另外的 group.id&＃xff0c;ConsumerC 是可以消费到 TopicA 的数据的。

而 ConsumerD 也是消费不到的&＃xff0c;所以在 Kafka 中&＃xff0c;不同组可有唯一的一个消费者去消费同一主题的数据。

所以消费者组就是让多个消费者并行消费信息而存在的&＃xff0c;而且它们不会消费到同一个消息。

如下&＃xff0c;ConsumerA&＃xff0c;B&＃xff0c;C 是不会互相干扰的&＃xff1a;

consumer group:a consumerA consumerB consumerC

如图&＃xff0c;因为前面提到过了消费者会直接和 Leader 建立联系&＃xff0c;所以它们分别消费了三个 Leader&＃xff0c;所以一个分区不会让消费者组里面的多个消费者去消费&＃xff0c;但是在消费者不饱和的情况下&＃xff0c;一个消费者是可以去消费多个分区的数据的。

Controller

熟知一个规律&＃xff1a;在大数据分布式文件系统里面&＃xff0c;95%的都是主从式的架构&＃xff0c;个别是对等式的架构&＃xff0c;比如ElasticSearch。

kafka也是主从式的架构&＃xff0c;主节点就叫controller&＃xff0c;其余的为从节点&＃xff0c;controller是需要和zookeeper进行配合管理整个kafka集群。

kafka和zookeeper如何配合工作

kafka严重依赖于zookeeper集群&＃xff08;所以之前的zookeeper文章还是有点用的&＃xff09;。所有的broker在启动的时候都会往zookeeper进行注册&＃xff0c;目的就是选举出一个controller&＃xff0c;这个选举过程非常简单粗暴&＃xff0c;就是一个谁先谁当的过程&＃xff0c;不涉及什么算法问题。

那成为controller之后要做啥呢&＃xff0c;它会监听zookeeper里面的多个目录&＃xff0c;例如有一个目录/brokers/&＃xff0c;其他从节点往这个目录上**注册&＃xff08;就是往这个目录上创建属于自己的子目录而已&＃xff09;**自己&＃xff0c;这时命名规则一般是它们的id编号&＃xff0c;比如/brokers/0,1,2

注册时各个节点必定会暴露自己的主机名&＃xff0c;端口号等等的信息&＃xff0c;此时controller就要去读取注册上来的从节点的数据&＃xff08;通过监听机制&＃xff09;&＃xff0c;生成集群的元数据信息&＃xff0c;之后把这些信息都分发给其他的服务器&＃xff0c;让其他服务器能感知到集群中其它成员的存在。

此时模拟一个场景&＃xff0c;我们创建一个主题&＃xff08;其实就是在zookeeper上/topics/topicA这样创建一个目录而已&＃xff09;&＃xff0c;kafka会把分区方案生成在这个目录中&＃xff0c;此时controller就监听到了这一改变&＃xff0c;它会去同步这个目录的元信息&＃xff0c;然后同样下放给它的从节点&＃xff0c;通过这个方法让整个集群都得知这个分区方案&＃xff0c;此时从节点就各自创建好目录等待创建分区副本即可。这也是整个集群的管理机制。

加餐时间

1.Kafka性能好在什么地方&＃xff1f;

① 顺序写

操作系统每次从磁盘读写数据的时候&＃xff0c;需要先寻址&＃xff0c;也就是先要找到数据在磁盘上的物理位置&＃xff0c;然后再进行数据读写&＃xff0c;如果是机械硬盘&＃xff0c;寻址就需要较长的时间。kafka的设计中&＃xff0c;数据其实是存储在磁盘上面&＃xff0c;一般来说&＃xff0c;会把数据存储在内存上面性能才会好。但是kafka用的是顺序写&＃xff0c;追加数据是追加到末尾&＃xff0c;磁盘顺序写的性能极高&＃xff0c;在磁盘个数一定&＃xff0c;转数达到一定的情况下&＃xff0c;基本和内存速度一致

随机写的话是在文件的某个位置修改数据&＃xff0c;性能会较低。

② 零拷贝

先来看看非零拷贝的情况

可以看到数据的拷贝从内存拷贝到kafka服务进程那块&＃xff0c;又拷贝到socket缓存那块&＃xff0c;整个过程耗费的时间比较高&＃xff0c;kafka利用了Linux的sendFile技术&＃xff08;NIO&＃xff09;&＃xff0c;省去了进程切换和一次数据拷贝&＃xff0c;让性能变得更好。

2.日志分段存储

Kafka 规定了一个分区内的 .log 文件最大为 1G&＃xff0c;做这个限制目的是为了方便把 .log 加载到内存去操作&＃xff1a;

00000000000000000000.index 00000000000000000000.log 00000000000000000000.timeindex 00000000000005367851.index 00000000000005367851.log 00000000000005367851.timeindex 00000000000009936472.index 00000000000009936472.log 00000000000009936472.timeindex

这个 9936472 之类的数字&＃xff0c;就是代表了这个日志段文件里包含的起始 Offset&＃xff0c;也就说明这个分区里至少都写入了接近 1000 万条数据了。

Kafka Broker 有一个参数&＃xff0c;log.segment.bytes&＃xff0c;限定了每个日志段文件的大小&＃xff0c;最大就是 1GB。

一个日志段文件满了&＃xff0c;就自动开一个新的日志段文件来写入&＃xff0c;避免单个文件过大&＃xff0c;影响文件的读写性能&＃xff0c;这个过程叫做 log rolling&＃xff0c;正在被写入的那个日志段文件&＃xff0c;叫做 active log segment。

如果大家有了解 HDFS 就会发现 NameNode 的 edits log 也会做出限制&＃xff0c;所以这些框架都是会考虑到这些问题。

3.Kafka的网络设计

kafka的网络设计和Kafka的调优有关&＃xff0c;这也是为什么它能支持高并发的原因

首先客户端发送请求全部会先发送给一个Acceptor&＃xff0c;broker里面会存在3个线程&＃xff08;默认是3个&＃xff09;&＃xff0c;这3个线程都是叫做processor&＃xff0c;Acceptor不会对客户端的请求做任何的处理&＃xff0c;直接封装成一个个socketChannel发送给这些processor形成一个队列&＃xff0c;发送的方式是轮询&＃xff0c;就是先给第一个processor发送&＃xff0c;然后再给第二个&＃xff0c;第三个&＃xff0c;然后又回到第一个。消费者线程去消费这些socketChannel时&＃xff0c;会获取一个个request请求&＃xff0c;这些request请求中就会伴随着数据。

线程池里面默认有8个线程&＃xff0c;这些线程是用来处理request的&＃xff0c;解析请求&＃xff0c;如果request是写请求&＃xff0c;就写到磁盘里。读的话返回结果。processor会从response中读取响应数据&＃xff0c;然后再返回给客户端。这就是Kafka的网络三层架构。

所以如果我们需要对kafka进行增强调优&＃xff0c;增加processor并增加线程池里面的处理线程&＃xff0c;就可以达到效果。request和response那一块部分其实就是起到了一个缓存的效果&＃xff0c;是考虑到processor们生成请求太快&＃xff0c;线程数不够不能及时处理的问题。

所以这就是一个加强版的reactor网络线程模型。

【JVM系列】1.Java虚拟机内存模型
太可怕了&＃xff01;上海交大毕业的网易前员工曝身患重病后&＃xff0c;被残酷裁员&＃xff01;
又到了一年一度的双十一&＃xff0c;程序猿的你都买些啥
交付程序不给钱&＃xff0c;程序员一怒之下开源客户项目代码
让 Java 应用运行更快&＃xff1a;性能调优工具及实践
简历就该这么写
Maven的爱恨情仇

喜欢就点个"在看"呗&＃xff0c;留言、转发朋友圈

推荐阅读

jsp
Java毕业设计：在线办公工作流系统MyBatis+源码+调试部署+数据库+论文

本文介绍了基于Java的在线办公工作流系统的毕业设计方案，涵盖了MyBatis框架的应用、源代码分析、调试与部署流程、数据库设计以及相关论文撰写指导。 ... [详细]

蜡笔小新 2024-11-25 10:21:47
jsp
七大策略降低云上MySQL成本

在全球经济放缓和通胀压力下，降低云环境中MySQL数据库的运行成本成为企业关注的重点。本文提供了一系列实用技巧，旨在帮助企业有效控制成本，同时保持高效运作。 ... [详细]

蜡笔小新 2024-11-22 10:13:40
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
post
阿里巴巴终面技术挑战：如何利用 UDP 实现 TCP 功能？

在阿里巴巴的技术面试中，技术总监曾提出一道关于如何利用 UDP 实现 TCP 功能的问题。当时回答得不够理想，因此事后进行了详细总结。通过与总监的进一步交流，了解到这是一道常见的阿里面试题。面试官的主要目的是考察应聘者对 UDP 和 TCP 在原理上的差异的理解，以及如何通过 UDP 实现类似 TCP 的可靠传输机制。 ... [详细]

蜡笔小新 2024-11-11 11:50:49
post
从小微企业到大型企业：Java架构师实战训练营首周体验

在当今的软件开发领域，分布式技术已成为程序员不可或缺的核心技能之一，尤其在面试中更是考察的重点。无论是小微企业还是大型企业，掌握分布式技术对于提升工作效率和解决实际问题都至关重要。本周的Java架构师实战训练营中，我们深入探讨了Kafka这一高效的分布式消息系统，它不仅支持发布订阅模式，还能在高并发场景下保持高性能和高可靠性。通过实际案例和代码演练，学员们对Kafka的应用有了更加深刻的理解。 ... [详细]

蜡笔小新 2024-11-09 11:21:43
hash
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
数组
RabbitMQ 核心组件解析

本文详细介绍了RabbitMQ的核心概念，包括其基本原理、应用场景及关键组件，如消息、生产者、消费者、信道、交换机、路由键和虚拟主机等。 ... [详细]

蜡笔小新 2024-11-25 12:22:15
object
Hibernate框架简述

Hibernate全自动全映射ORM框架，旨在消除sql，是一个持久层的ORM框架1）、基础概念DAO(DataAccessorOb ... [详细]

蜡笔小新 2024-11-22 16:36:49
object
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
range
深入理解：AJAX学习指南

本文详细探讨了AJAX的基本概念、工作原理及其在现代Web开发中的应用，旨在为初学者提供全面的学习资料。 ... [详细]

蜡笔小新 2024-11-20 17:58:54
search
菜鸟物流核心部门诚聘P6及以上JAVA工程师

菜鸟物流用户增长部现正大规模招聘P6及以上级别的JAVA工程师，提供年后入职选项。 ... [详细]

蜡笔小新 2024-11-20 16:25:34
nodejs
实践指南：使用Express、Create React App与MongoDB搭建React开发环境

本文详细介绍了如何利用Express、Create React App和MongoDB构建一个高效的React应用开发环境，旨在为开发者提供一套完整的解决方案，包括环境搭建、数据模拟及前后端交互。 ... [详细]

蜡笔小新 2024-11-20 10:05:15
object
深入解析：存储技术的演变与发展

本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程，详细解释了各种存储模型及其特点。 ... [详细]

蜡笔小新 2024-11-19 11:25:40
jar
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
jar
RocketMQ在秒杀时的应用

目录一、RocketMQ是什么二、broker和nameserver2.1Broker2.2NameServer三、MQ在秒杀场景下的应用3.1利用MQ进行异步操作3. ... [详细]

蜡笔小新 2024-11-14 12:27:39

huai

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章