流式传输大数据：Storm，Spark和Samza

作者：jiajiajy323 | 来源：互联网 | 2023-08-21 12:43

有许多分布式计算系统可以实时或近实时处理大数据。本文将从对三个Apache框架的简短描述开始，并试图对它们之间的某些相似之处和不同之处提供一个快速的高级概述。阿帕奇风

有许多分布式计算系统可以实时或近实时处理大数据。本文将从对三个Apache框架的简短描述开始&＃xff0c;并试图对它们之间的某些相似之处和不同之处提供一个快速的高级概述。

阿帕奇风暴

在风暴 &＃xff0c;你设计要求的T opology实时计算的图&＃xff0c;然后喂到集群&＃xff0c;其中主节点将分发工作节点来执行它之间的代码。在拓扑中&＃xff0c;数据在喷口之间传递&＃xff0c; 喷口以不可变的键值对集&＃xff08;称为元组&＃xff09;的形式发射数据流&＃xff0c;而螺栓则转换这些流&＃xff08;计数&＃xff0c;过滤器等&＃xff09;。螺栓本身可以选择将数据发送到处理管道中的其他螺栓。

风暴建筑41

阿帕奇火花

Spark Streaming &＃xff08;Spark API的核心扩展&＃xff09;不会像Storm那样一次处理流。相反&＃xff0c;它将在处理它们之前将它们切成小批时间间隔。连续数据流的Spark抽象称为DStream &＃xff08;对于离散流 &＃xff09;。 DStream是RDD &＃xff08; 弹性分布式数据集 &＃xff09;的微型批次。 RDD是分布式集合&＃xff0c;可以通过任意功能和数据滑动窗口上的转换&＃xff08; 窗口计算 &＃xff09;并行操作。

spark-architecture4

阿帕奇·萨姆扎&＃xff08;Apache Samza&＃xff09;

Samza的流式传输方法是在收到消息时一次处理一次。 Samza的流原语不是元组或Dstream &＃xff0c;而是消息。流被分成多个分区 &＃xff0c;每个分区都是只读消息的有序序列&＃xff0c;每个消息具有唯一的ID&＃xff08; 偏移量 &＃xff09;。该系统还支持批处理 &＃xff0c;即按顺序使用来自同一流分区的多个消息。尽管Samza通常依赖于Hadoop的YARN &＃xff08; 另一个资源协商者 &＃xff09;和Apache Kafka &＃xff0c;但Samza的执行和流模块都可以插入。

samza42

共同点

所有这三个实时计算系统都是开源&＃xff0c; 低延迟 &＃xff0c; 分布式&＃xff0c;可伸缩和容错的 。它们都使您能够通过跨具有故障转移功能的计算机集群中分布的并行任务来运行流处理代码。它们还提供了简单的API&＃xff0c;以抽象出底层实现的复杂性。

这三个框架针对相似的概念使用不同的词汇表&＃xff1a;

apache-concepts21

比较矩阵

下表总结了一些区别&＃xff1a;

阿帕奇1

交付模式一般分为三类&＃xff1a;

最多一次 &＃xff1a;消息可能会丢失。通常这是最不希望的结果。
至少一次 &＃xff1a;可以重新发送邮件&＃xff08;不丢失&＃xff0c;但重复&＃xff09;。对于许多用例来说&＃xff0c;这已经足够了。
恰好一次 &＃xff1a;每封邮件仅发送一次&＃xff0c;且一次&＃xff08;无损失&＃xff0c;无重复&＃xff09;。尽管很难在所有情况下都保证&＃xff0c;但这是一个理想的功能。

另一方面是状态管理 。存储状态有不同的策略。 Spark Streaming将数据写入分布式文件系统&＃xff08;例如HDFS&＃xff09;。 Samza使用嵌入式键值存储。使用Storm&＃xff0c;您将不得不在应用程序层滚动自己的状态管理&＃xff0c;或者使用称为Trident的更高级别的抽象。

用例

这三个框架特别适合于有效处理连续的大量实时数据。那么使用哪一个呢&＃xff1f; 没有硬性规定&＃xff0c;最多只有一些通用准则。

如果您想要一个允许增量计算的高速事件处理系统&＃xff0c; Storm将会很合适。如果您进一步需要按需运行分布式计算&＃xff0c;而客户端正在同步等待结果&＃xff0c;则可以直接使用分布式RPC &＃xff08;DRPC&＃xff09;。最后但并非最不重要的一点&＃xff0c;因为Storm使用Apache Thrift &＃xff0c;所以您可以用任何编程语言编写拓扑。但是&＃xff0c;如果您需要状态持久性和/或仅一次交付&＃xff0c;则应查看更高级别的Trident API&＃xff0c;该API还提供了微分批处理。

一些使用Storm的公司&＃xff1a; Twitter&＃xff0c;Yahoo&＃xff01;&＃xff0c;Spotify&＃xff0c;天气频道 。

说到微批处理&＃xff0c;如果您必须有状态的计算&＃xff0c;一次发送并且不介意更高的延迟&＃xff0c;则可以考虑使用Spark Streaming……特别是如果您还计划进行图形操作&＃xff0c;机器学习或SQL访问。 Apache Spark堆栈使您可以将多个库与流&＃xff08; Spark SQL &＃xff0c; MLlib &＃xff0c; GraphX &＃xff09;结合起来&＃xff0c;并提供方便的统一编程模型。特别是&＃xff0c; 流算法 &＃xff08;例如&＃xff0c;流k均值 &＃xff09;使Spark可以实时进行决策。

spark-stack2

一些使用Spark的公司&＃xff1a; Amazon&＃xff0c;Yahoo&＃xff01;&＃xff0c;NASA JPL&＃xff0c;eBay Inc.&＃xff0c;百度…

如果您要处理的状态很多&＃xff08;例如&＃xff0c;每个分区有许多GB&＃xff09;&＃xff0c; Samza会将存储和处理放在同一台机器上&＃xff0c;从而可以有效地处理内存中无法容纳的状态。该框架还通过其可插拔 API提供了灵活性&＃xff1a;默认执行&＃xff0c;消息传递和存储引擎都可以用您选择的替代方案来代替。此外&＃xff0c;如果您有来自不同团队&＃xff0c;具有不同代码库的多个数据处理阶段&＃xff0c;则Samza的细粒度作业将特别适合&＃xff0c;因为可以在添加或删除它们的同时将涟漪效应降至最低。

一些使用Samza的公司&＃xff1a; LinkedIn&＃xff0c;Intuit&＃xff0c;Metamarkets&＃xff0c;Quantiply&＃xff0c;Fortscale…

结论

我们只刮过《三个阿帕奇人》的表面。我们没有涵盖其他许多功能&＃xff0c;以及这些框架之间的细微差别。另外&＃xff0c;重要的是要牢记上述比较的局限性&＃xff0c;因为这些系统在不断发展。

翻译自: https://www.javacodegeeks.com/2015/02/streaming-big-data-storm-spark-samza.html

推荐阅读

int
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
import
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17
int
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
import
深入探索Node.js新框架：Nest.js第六篇

在本文中，我们将深入探讨Node.js的新框架Nest.js，并通过一个完整的示例来展示其强大功能。我们将使用多个装饰器创建一个基本控制器，该控制器提供了多种方法来访问和操作内部数据，涵盖了常见的CRUD操作。此外，我们还将详细介绍Nest.js的核心概念和最佳实践，帮助读者更好地理解和应用这一现代框架。 ... [详细]

蜡笔小新 2024-11-02 15:46:43
import
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
import
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
int
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
int
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
int
R语言中向量（Vector）数据类型的元素索引与访问：利用中括号[]和赋值操作符在向量末尾追加数据以扩展其长度

在R语言中，向量（Vector）数据类型的元素可以通过中括号 `[]` 进行索引和访问。此外，利用中括号和赋值操作符，可以在向量的末尾追加新数据，从而动态地扩展向量的长度。这种方法不仅简洁高效，还能灵活地管理向量中的数据。 ... [详细]

蜡笔小新 2024-11-10 06:24:16
int
提升 Kubernetes 集群管理效率的七大专业工具

Kubernetes 在云原生环境中的应用日益广泛，然而集群管理的复杂性也随之增加。为了提高管理效率，本文推荐了七款专业工具，这些工具不仅能够简化日常操作，还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查，这些工具覆盖了集群管理的各个方面，帮助管理员更好地应对挑战。 ... [详细]

蜡笔小新 2024-11-07 17:01:31
install
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
install
Windows环境下详细教程：如何搭建Git服务

Windows环境下详细教程：如何搭建Git服务 ... [详细]

蜡笔小新 2024-10-28 17:31:26
install
大数据深度解读系列官网资源分享

大数据深度解读系列官网资源分享 ... [详细]

蜡笔小新 2024-10-27 17:27:52
command
内网渗透技术详解：PTH、PTT与PTK在域控环境中的应用及猫盘内网穿透配置

本文深入探讨了内网渗透技术，特别是PTH、PTT与PTK在域控环境中的应用，并详细介绍了猫盘内网穿透的配置方法。通过这些技术，安全研究人员可以更有效地进行内网渗透测试，解决常见的渗透测试难题。此外，文章还提供了实用的配置示例和操作步骤，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-10-26 10:56:21
int
2017年9月7日前端技术动态与资讯汇总

2017-09-07前端日报精选JavaScriptEventLoop机制详解与Vue.js中实践应用Redux基础与实践如何用js获取虚拟键盘高度？（ ... [详细]

蜡笔小新 2024-10-22 19:15:38

jiajiajy323

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章