黑猴子的家：为什么要有KafkaStream

作者：韵丽雅舍现代专业女子养生馆 | 来源：互联网 | 2023-08-16 19:33

当前已经有非常多的流式处理系统，最知名且应用最多的开源流式处理系统有SparkStreaming和ApacheStorm。ApacheStorm发展多年，应用广泛，提供记录级别的处

当前已经有非常多的流式处理系统，最知名且应用最多的开源流式处理系统有Spark Streaming和Apache Storm。Apache Storm发展多年，应用广泛，提供记录级别的处理能力，当前也支持SQL on Stream。而Spark Streaming基于Apache Spark，可以非常方便与图计算，SQL处理等集成，功能强大，对于熟悉其它Spark应用开发的用户而言使用门槛低。另外，目前主流的Hadoop发行版，如Cloudera和Hortonworks，都集成了Apache Storm和Apache Spark，使得部署更容易。

既然Apache Spark与Apache Storm拥用如此多的优势，那为何还需要Kafka Stream呢？

1、流式处理类库

Spark和Storm都是流式处理框架，而Kafka Stream提供的是一个基于Kafka的流式处理类库。框架要求开发者按照特定的方式去开发逻辑部分，供框架调用。开发者很难了解框架的具体运行方式，从而使得调试成本高，并且使用受限。而Kafka Stream作为流式处理类库，直接提供具体的类给开发者调用，整个应用的运行方式主要由开发者控制，方便使用和调试。

2、Kafka Stream 部署

虽然Cloudera与Hortonworks方便了Storm和Spark的部署，但是这些框架的部署仍然相对复杂。而Kafka Stream作为类库，可以非常方便的嵌入应用程序中，它对应用的打包和部署基本没有任何要求。

3、Kafka Stream 的使用成本

就流式处理系统而言，基本都支持Kafka作为数据源。例如Storm具有专门的kafka-spout，而Spark也提供专门的spark-streaming-kafka模块。事实上，Kafka基本上是主流的流式处理系统的标准数据源。换言之，大部分流式系统中都已部署了Kafka，此时使用Kafka Stream的成本非常低。

4、Kafka Stream 不占用系统资源

使用Storm或Spark Streaming时，需要为框架本身的进程预留资源，如Storm的supervisor和Spark on YARN的node manager。即使对于应用实例而言，框架本身也会占用部分资源，如Spark Streaming需要为shuffle和storage预留内存。但是Kafka作为类库不占用系统资源。

5、Kafka Stream 计算能力

由于Kafka本身提供数据持久化，因此Kafka Stream提供滚动部署和滚动升级以及重新计算的能力。

6、Kafka Stream 并行度

由于Kafka Consumer Rebalance机制，Kafka Stream可以在线动态调整并行度。

推荐阅读

sum
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
stream
无服务器_云原生数据湖架构中的无服务器 Kafka

篇首语：本文由编程笔记#小编为大家整理，主要介绍了云原生数据湖架构中的无服务器Kafka相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-12 15:37:48
stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
stream
Spark学习之路(一)Spark概述

一,什么是spark定义:Spark一种基于内存的快速,通用,可扩展的大数据分析引擎.官网地址：http:spark.apache.org历史:2009年诞生于加州伯 ... [详细]

蜡笔小新 2023-10-10 18:42:22
sum
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
sum
上海市地理位置解析：纬度详细分析

9月10日，ShanghaiApacheSparkMeetup聚会在上海通茂大酒店成功举办。本次活动邀请到运营商和高校讲师来分享经验，主题覆盖了从Spark研发到应用的各种不同视角 ... [详细]

蜡笔小新 2024-10-22 20:30:31
sum
大数据的明天将驶向何方？

http:www.infoq.comcnarticleswhere-will-big-data--tomorrow-sail-to大数据的明天将驶向何方？作者 36Kr 发布于20 ... [详细]

蜡笔小新 2023-10-11 15:36:45
sum
Hdoop入门

一、背景1、起源MapReduce编程模型的思想来源于函数式编程语言Lisp，由Google公司于2004年提出并首先应用于大型集群。同时，Google ... [详细]

蜡笔小新 2023-10-10 12:27:30
python
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
python
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
export
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
python
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
python
大数据深度解读系列官网资源分享

大数据深度解读系列官网资源分享 ... [详细]

蜡笔小新 2024-10-27 17:27:52
python
.NET Core 2.* 开发者指南：全面学习与实践手册

本书《.NET Core 2.* 开发者指南》是面向开发者的全面学习与实践手册，涵盖了从基础到高级的各个层面。书中详细解析了 .NET Core 的核心概念，包括如何创建 .NET Core 网站，并通过视频教程直观展示操作过程。此外，还深入探讨了 Startup 类的作用、项目目录结构的组织方式以及如何在应用中使用静态文件等内容。对于希望深入了解 .NET Core 架构和开发技巧的开发者来说，本书提供了丰富的实践案例和详尽的技术指导。 ... [详细]

蜡笔小新 2024-10-27 13:05:35
python
JVM上高性能数据格式库包Apache Arrow入门和架构的示例分析

小编给大家分享一下JVM上高性能数据格式库包ApacheArrow入门和架构的示例分析，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！Apac ... [详细]

蜡笔小新 2024-10-21 17:23:18

韵丽雅舍现代专业女子养生馆

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章