KafkaStream以及其他流处理框架对比

作者：shanfeng0828_589 | 来源：互联网 | 2023-07-20 11:05

1.KafkaStreamIntroduction假设我们需要对kafka消息做流数据分析，例如：对部分消息做过滤每分钟计算一次收到了多少消息这种情况下，对于消息过滤以及定时统计，

1. Kafka Stream Introduction

假设我们需要对kafka 消息做流数据分析，例如：

对部分消息做过滤
每分钟计算一次收到了多少消息

这种情况下，对于消息过滤以及定时统计，甚至是进行流的合并，是几个基本的流式处理。但是在这种情况下，仅使用Kafka Producer 与 Consumer 很难实现这些功能，因为它们属于非常底层的API，并且并不是developer friendly 的API。在这种情况下，我们可以考虑使用Kafka Stream。

什么是Kafka Stream？

它是一个Kafka提供，进行数据处理与转换的库，有如下特点：

由Java 标准实现
不需要创建另一个独立的kafka集群
较好的扩展、弹性以及容错能力
可实现Exactly Once传输语义
每次处理一个条目（no batching），不像spark streaming那样是微批处理
适用于任何规模的应用

常规的Kafka Stream处理架构如下，其中producer端使用了开源的kafka connector：

Kafka Stream 以及其他流处理框架对比

2. Differences among various Streams

当前主流的流处理有：Storm，Spark Streaming，Flink以及Kafka Stream。

Storm

Storm是最早的流处理框架，它的优点在于：

低延时、true streaming、高吞吐
非常适合复杂度不高的流场景

缺点为：

无状态管理（no state management）
缺少更高级的功能，例如事件-时间处理、聚合、窗口、sessions、watermark等等
at-least-once 语义

Spark Streaming

Spark Streaming 非常流行，在Spark 2.0 之后的版本，称为结构化的流（structured streaming），性能提升了很多，并且增加了很多高级功能，例如定制的内存管理（tungsten），watermarks，事件事件处理等。

在2.3.0 版本之后，structured streaming除了可以（默认）使用micro-batching处理之外，还可以选择continuous streaming 模式。在micro-batching模式下，最低延时可达100ms，而在continuous streaming 模式下，最低延时可达几毫秒。在大部分real-time 应用场景下，micro-batching 的延时是可以接受的。不过如果有必要实现毫秒级别的延时（如信用卡交易欺诈之类的），则需要使用continuous streaming。

虽然spark streaming 的continuous streaming可以提供如Storm与Flink级别的低延时，不过它仅是一个预览版，尚未完全成熟。

Spark Streaming 的优点为：

支持Lambda架构，与Spark无缝连接
高吞吐，适用于大部分对延时要求不高的场景
默认实现的Fault tolerance（由原生的micro-batch提供）
简易使用的高级API
社区繁荣，更新频繁
Exactly Once 语义

缺点有：

并不是真正的流处理，不适用于低延时的场景
需要调整太多参数，很难调整到合适的参数
默认是Stateless streaming
在一些高级特性上，落后于Flink

Flink

Flink 是一个真正的流处理框架，它的优点为：

第一个真正的流处理框架，具有所有高级功能，例如事件-时间处理，watermarks，等
低延时、高吞吐，可以根据需求做配置
自适应，没有太多的参数需要调优
Excatly Once 语义
被大公司广泛使用

缺点有：

仅在Streaming中广泛使用，在Batch 场景中使用较少

Kafka Stream

Kafka Stream相较于其他所有流处理框架，是一个轻量级的库。常用于处理Kafka中的数据，做一些变换（transformation），然后发回Kafka。

由于它原生即为轻量级的，所以适用于一些微服务类型的架构中。kafka Stream的部署与使用非常简单，且并不需要额外建立一个集群去运行。它的内部使用的是Kafka Consumer group，与Kafka log 的机制共同实现流处理。

Kafka Stream一个最大的优点为：端到端的Exactly Once。启用时也仅需要启用一个flag即可。

它的优点有：

非常轻量级的库，适用于微服务，IOT应用
不需要一个dedicated cluster
继承了Kafka所有优点
支持Stream join，内部使用rocksDB管理state
Exactly Once语义（Kafka 0.11 以后的版本）

缺点为：

与Kafka 紧密联系，无法在没有Kafka 的场景下使用
相较于Spark Streaming、Flink，不适用于大型业务场景

3. Stream Comparison

当前主流使用的流处理框架其实仅有两种：Spark Streaming与Flink。所以其实真正的竞争也仅在这两者之间。

一般来说，我们在比较两者的性能时，会对比一些压测数据。不过这里的问题在于：两者的压测数据对比并不能很有效的说明两者孰优孰劣，因为一个很小的因素或是配置就有可能造成两者性能的不同。

抛开数据来看，我们可以明显看到的是：Flink在流处理框架中，为一个引领者的状态。例如它的exactly once，吞吐，延时，state management，fault tolerance，以及其他高级的功能等，均是由Flink引导。Flink中的各种底层实现如light weighted snapshots、off-heap custom memory management 可能也帮助它成就了今天的地位。并且我们现在也可以看到Flink已经在各大公司被广泛地使用了。

这里有一点需要提及的是：各个原生的流处理框架，如Flink，Kafka Stream，Samza 等这些支持state management的处理框架，内部均使用的是RocksDb存储state。其中一个原因就是RocksDB在每个节点上，locally maintains 持久化的state数据，并且性能特别好。

4. 如何选择Streaming Framework

在选择Streaming Frameworks时，首先需要了解的一点是：没有万能的Streaming Framework，一切的选择都是基于需求。

如果业务场景较为简单，并不需要最新的框架（存在学习成本以及实现成本）。则可以根据可投入的成本选择一个框架。例如，如果仅是需要一个基于IOT的事件的警报系统，则Storm，Kafka Stream就已经足够了。

如果业务场景中需要一些高级的功能，如状态管理，stream join，聚合等，则要使用更先进的流处理框架如Spark Streaming或是Flink。

基于当前业务使用的技术栈，若是整个业务使用的是Kafka 端到端，则使用Kafka Stream 或是Samza会更简单。同样，如果基于的是Lambda架构，或者业务中已经使用了Spark Batch或是Flink Bath，则可以相应考虑使用Spark或是Flink。

推荐阅读

java
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
stream
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
uri
开发笔记:Spark Java API 之 CountVectorizer

篇首语：本文由编程笔记#小编为大家整理，主要介绍了SparkJavaAPI之CountVectorizer相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:53:30
ip
关于存储:Streaming-Data-Warehouse-存储需求与架构

在计算机领域，数据仓库（DW或DWH），是一个用于报告和数据分析的零碎，被认为是商业智能的一个外围组成部分。它将以后和历史数据存储在一个中央，为整个企 ... [详细]

蜡笔小新 2023-10-12 23:20:28
scala
2022.4.2学习成果

Flink中的编程模型4.1编程模型在Flink，编程模型的抽象层级主要分为以下4种，越往下抽象度越低，编程越复杂，灵活度越高。这里先不一一介绍，后续会做详细说明。这4层中，一般用 ... [详细]

蜡笔小新 2023-10-12 17:17:52
scala
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
const
伊振华作品 | 沈阳市智慧城市运行管理中心的设计与建设

本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计，并以数字赋能和创新驱动高质量发展的理念，建设了集成、智慧、高效的一体化城市综合管理平台，促进了城市的数字化转型。该中心被称为当代城市的智能心脏，为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]

蜡笔小新 2023-12-14 16:35:39
ip
Redis数据结构之string应用场景解析

本文介绍了Redis的基础数据结构string的应用场景，并以面试的形式进行问答讲解，帮助读者更好地理解和应用Redis。同时，描述了一位面试者的心理状态和面试官的行为。 ... [详细]

蜡笔小新 2023-12-14 14:02:42
ip
Voicewo在线语音识别转换jQuery插件的特点和示例

本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件，该插件具有快速、架构、风格、扩展和兼容等特点，适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]

蜡笔小新 2023-12-13 20:01:16
ip
企业数据应用挑战及元数据管理的重要性

本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战，包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战，通过元数据管理可以实现数据的可见、可懂、可用，帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管，强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]

蜡笔小新 2023-12-12 15:39:22
text
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
text
你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ... [详细]

蜡笔小新 2023-10-15 17:24:27
text
ReadDataFromCheckpoint

packagecom.bjsxt.spark.others;importorg.apache.spark.SparkConf;importorg.apache.spark.api. ... [详细]

蜡笔小新 2023-10-15 12:29:43
python
Yarn已过时！Kubeflow实现机器学习调度平台才是未来

来源：AI前线本文约6700字，建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在，为你介绍Kubeflow与其核心组件及其 ... [详细]

蜡笔小新 2023-10-14 16:58:41
python
SQL：数据世界的通用语

目录摘要SQL的现在NoSQL,NotOnlySQL要分布式，也要SQL总结引用摘要毫不夸张的说，关系数据库是企业软件系统的核心，企业形形色色信息行为的背后，都有关系数据库的支撑。 ... [详细]

蜡笔小新 2023-10-12 22:29:13

shanfeng0828_589

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章