热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

ApacheCassandraVSSparkVSHiveVSStorm

如何解决《ApacheCassandraVSSparkVSHiveVSStorm》经验,为你挑选了1个好方法。

我个别理解每个是什么,但我很难在用例的差异上解决问题.

可以简要描述一下每个是什么,以及一个用例何时可以选择其他人的例子.

我的理解是Spark和Cassandra甚至没有可比性,但我的同事认为它们是同一物种.

作为大数据的新手,如果这是一个严格的意见/首选基础,我会提前道歉.如果有,请告诉我,我会把问题记下来.



1> cricket_007..:

在列出的那些中,Cassandra是唯一的数据库.Hive是Hadoop上的SQL执行引擎.SparkSQL提供相同的查询语言,但Spark更适用于其他用例,如流媒体和机器学习.Storm是一个实时的流处理框架; Spark做微批,Storm立即处理消息.(顺便说一句,我觉得Storm是一个古老的框架.我被告知Flink比Storm有更好的工作.Heron的目标是成为下一代Storm.)

Spark在具有大量内存的系统上运行得最好.通过使用SQL优化(如分区修剪,谓词下推以及操作ORC或Parquet的柱状格式),Hive可以说比Spark或Cassandra更大量地处理更多的原始数据.

Spark与Cassandra一样与Hive一样,但是,更多实时用例需要使用Cassandra,因为Hive查询必须启动MapReduce/Tez执行,这需要几秒钟,而使用正确的Cassandra数据模型则需要几毫秒.

Cassandra非常关注数据模型......没有理由不能将数据转储到Hadoop/Hive中,然后导出到Cassandra模型.或者,您可以使用Hbase而不是Cassandra,并使用类似的模型,可用性的权衡(参见CAP定理).

如果您对Spark和Cassandra用例感兴趣,那么SMACK堆栈就是常用的安装设置之一.


即使认为这个问题很广泛并且应该被关闭,我还是赞成你的回答,因为你说**Spark不是数据库**.
推荐阅读
  • 深入浅出:Hadoop架构详解
    Hadoop作为大数据处理的核心技术,包含了一系列组件如HDFS(分布式文件系统)、YARN(资源管理框架)和MapReduce(并行计算模型)。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]
  • 本文介绍了Hive作为基于Hadoop的数据仓库工具的核心概念,包括其基本功能、使用理由、特点以及与Hadoop的关系。同时,文章还探讨了Hive相较于传统关系型数据库的不同之处,并展望了Hive的发展前景。 ... [详细]
  • 全面解读Apache Flink的核心架构与优势
    Apache Flink作为大数据处理领域的新兴力量,凭借其独特的流处理能力和高效的批处理性能,迅速获得了广泛的关注。本文旨在深入探讨Flink的关键技术特点及其应用场景,为大数据处理提供新的视角。 ... [详细]
  • 面对众多的数据分析工具,如何选择最适合自己的那一个?对于初学者而言,了解并掌握几种核心工具是快速入门的关键。本文将从数据处理的不同阶段出发,推荐三种广泛使用的数据分析工具。 ... [详细]
  • 58同城的Elasticsearch应用与平台构建实践
    本文由58同城高级架构师于伯伟分享,由陈树昌编辑整理,内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用,特别是在58同城的实施案例,包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]
  • 本文详细探讨了如何在 SparkSQL 中创建 DataFrame,涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分,本文将持续更新以提供最新信息。 ... [详细]
  • 时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接,可以构建多维度报表,揭示数据的趋势、规律及异常情况。 ... [详细]
  • PySpark实战:高效使用DataFrame超越RDD
    本文深入探讨了PySpark中DataFrame的使用方法及其相对于传统RDD的优势,旨在帮助开发者更好地理解和利用这一强大工具。 ... [详细]
  • 本文详细介绍了一种利用局域网环境将本地SQL Server数据库备份至另一台计算机的方法。主要步骤包括在目标机器上设置共享文件夹、配置SQL Server以支持备份任务,并通过定时任务实现自动化备份。 ... [详细]
  • SQL执行计划解析(2) 基本查询的图形执行计划
    SQL执行计划解析(2)-基本查询的图形执行计划(上)某种程度上,学习阅读图形执行计划和学习一门新语言很类似。 ... [详细]
  • 现代软件工程开发体验:结对编程
    距现代软件工程开课已经3周,按照课程安排,在最近的9天中,我们进行了极限编程模式的体验:pairwork(结对编程,具体见链接),对象是在academicsearchmap上添加一些新特性。经过选 ... [详细]
  • 1.3数据库系统结构及组成(三级模式结构)
    文章目录1.3.1数据库系统结构一、数据库系统模式的概念二、数据库系统的三级模式结构三、数据库的二级映像功能与数据独立性1.3.2数据库系统的体系结构一、DBS体系结构的组成二、D ... [详细]
  • 大数据核心技术解析
    本文深入探讨了大数据技术的关键领域,包括数据的收集、预处理、存储管理、以及分析挖掘等方面,旨在提供一个全面的技术框架理解。 ... [详细]
  • 龙蜥社区开发者访谈:技术生涯的三次蜕变 | 第3期
    龙蜥社区的开发者们通过自己的实践和经验,推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型,分享他在龙蜥社区的成长故事。 ... [详细]
  • 精选10款Python框架助力并行与分布式机器学习
    随着神经网络模型的不断深化和复杂化,训练这些模型变得愈发具有挑战性,不仅需要处理大量的权重,还必须克服内存限制等问题。本文将介绍10款优秀的Python框架,帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]
author-avatar
yan
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有