作者:只为-娱乐 | 来源:互联网 | 2023-09-02 13:38
2.2 Apache Spark概述
Hadoop和MR已有10年历史,已经被证明是高性能处理海量数据的最佳解决方案。然而,MR在迭代计算中性能不足,在这种情况下,多个MR作业之间的输出必须被写入 HDFS。在单个MR作业中,它的性能不足则是因为MR框架存在的一些缺点所致。
让我们来看看计算趋势的发展历史,以便了解计算的格局在过去20年中的变化。
这个趋势是当网络成本更低时(1990年代)对URI索引(Reference),当存储成本更低时(2000 年代)进行复制(Replicate),以及当内存成本更低时(2010 年代)进行再计算(Recompute),如图2-5 所示:
让我们来了解一下,为什么基于内存的计算很重要,以及它如何能产生显著的性能优势。
图2-6显示了从各种介质到CPU的数据传输速率。磁盘到CPU的传输速率为100 MB