当前位置: 开发笔记 > 数据库 > 正文

ApacheCassandraVSSparkVSHiveVSStorm

作者：yan | 来源：互联网 | 2022-12-30 14:34

如何解决《ApacheCassandraVSSparkVSHiveVSStorm》经验，为你挑选了1个好方法。

我个别理解每个是什么,但我很难在用例的差异上解决问题.

可以简要描述一下每个是什么,以及一个用例何时可以选择其他人的例子.

我的理解是Spark和Cassandra甚至没有可比性,但我的同事认为它们是同一物种.

作为大数据的新手,如果这是一个严格的意见/首选基础,我会提前道歉.如果有,请告诉我,我会把问题记下来.

1> cricket_007..：

在列出的那些中,Cassandra是唯一的数据库.Hive是Hadoop上的SQL执行引擎.SparkSQL提供相同的查询语言,但Spark更适用于其他用例,如流媒体和机器学习.Storm是一个实时的流处理框架; Spark做微批,Storm立即处理消息.(顺便说一句,我觉得Storm是一个古老的框架.我被告知Flink比Storm有更好的工作.Heron的目标是成为下一代Storm.)

Spark在具有大量内存的系统上运行得最好.通过使用SQL优化(如分区修剪,谓词下推以及操作ORC或Parquet的柱状格式),Hive可以说比Spark或Cassandra更大量地处理更多的原始数据.

Spark与Cassandra一样与Hive一样,但是,更多实时用例需要使用Cassandra,因为Hive查询必须启动MapReduce/Tez执行,这需要几秒钟,而使用正确的Cassandra数据模型则需要几毫秒.

Cassandra非常关注数据模型......没有理由不能将数据转储到Hadoop/Hive中,然后导出到Cassandra模型.或者,您可以使用Hbase而不是Cassandra,并使用类似的模型,可用性的权衡(参见CAP定理).

如果您对Spark和Cassandra用例感兴趣,那么SMACK堆栈就是常用的安装设置之一.

即使认为这个问题很广泛并且应该被关闭,我还是赞成你的回答,因为你说**Spark不是数据库**.

推荐阅读

mysql
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
数据库
全面解析Hive：数据仓库工具概览

本文介绍了Hive作为基于Hadoop的数据仓库工具的核心概念，包括其基本功能、使用理由、特点以及与Hadoop的关系。同时，文章还探讨了Hive相较于传统关系型数据库的不同之处，并展望了Hive的发展前景。 ... [详细]

蜡笔小新 2024-12-05 10:44:18
sql
全面解读Apache Flink的核心架构与优势

Apache Flink作为大数据处理领域的新兴力量，凭借其独特的流处理能力和高效的批处理性能，迅速获得了广泛的关注。本文旨在深入探讨Flink的关键技术特点及其应用场景，为大数据处理提供新的视角。 ... [详细]

蜡笔小新 2024-12-01 10:03:17
数据库
2021年度精选：新手必知的数据分析工具指南

面对众多的数据分析工具，如何选择最适合自己的那一个？对于初学者而言，了解并掌握几种核心工具是快速入门的关键。本文将从数据处理的不同阶段出发，推荐三种广泛使用的数据分析工具。 ... [详细]

蜡笔小新 2024-11-23 19:47:22
mongodb
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
mysql
SparkSQL 中 DataFrame 的构建方法

本文详细探讨了如何在 SparkSQL 中创建 DataFrame，涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分，本文将持续更新以提供最新信息。 ... [详细]

蜡笔小新 2024-12-10 18:55:21
insert
时序数据库的应用与设计策略

时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接，可以构建多维度报表，揭示数据的趋势、规律及异常情况。 ... [详细]

蜡笔小新 2024-11-26 17:30:42
json
PySpark实战：高效使用DataFrame超越RDD

本文深入探讨了PySpark中DataFrame的使用方法及其相对于传统RDD的优势，旨在帮助开发者更好地理解和利用这一强大工具。 ... [详细]

蜡笔小新 2024-12-15 17:19:11
database
SQL Server 数据库跨局域网备份方案

本文详细介绍了一种利用局域网环境将本地SQL Server数据库备份至另一台计算机的方法。主要步骤包括在目标机器上设置共享文件夹、配置SQL Server以支持备份任务，并通过定时任务实现自动化备份。 ... [详细]

蜡笔小新 2024-12-10 13:14:49
database
SQL执行计划解析（2）基本查询的图形执行计划

SQL执行计划解析（2）-基本查询的图形执行计划（上）某种程度上，学习阅读图形执行计划和学习一门新语言很类似。 ... [详细]

蜡笔小新 2024-12-10 11:36:11
json
现代软件工程开发体验：结对编程

距现代软件工程开课已经3周，按照课程安排，在最近的9天中，我们进行了极限编程模式的体验：pairwork（结对编程，具体见链接），对象是在academicsearchmap上添加一些新特性。经过选 ... [详细]

蜡笔小新 2024-12-09 20:10:16
数据库
1.3数据库系统结构及组成（三级模式结构）

文章目录1.3.1数据库系统结构一、数据库系统模式的概念二、数据库系统的三级模式结构三、数据库的二级映像功能与数据独立性1.3.2数据库系统的体系结构一、DBS体系结构的组成二、D ... [详细]

蜡笔小新 2024-12-06 21:05:16
数据库
大数据核心技术解析

本文深入探讨了大数据技术的关键领域，包括数据的收集、预处理、存储管理、以及分析挖掘等方面，旨在提供一个全面的技术框架理解。 ... [详细]

蜡笔小新 2024-12-03 12:31:21
redis
龙蜥社区开发者访谈：技术生涯的三次蜕变 | 第3期

龙蜥社区的开发者们通过自己的实践和经验，推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型，分享他在龙蜥社区的成长故事。 ... [详细]

蜡笔小新 2024-11-21 11:12:28
redis
精选10款Python框架助力并行与分布式机器学习

随着神经网络模型的不断深化和复杂化，训练这些模型变得愈发具有挑战性，不仅需要处理大量的权重，还必须克服内存限制等问题。本文将介绍10款优秀的Python框架，帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]

蜡笔小新 2024-11-20 19:44:05

yan

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章