本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.3节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
Apache Spark 与 Hadoop 结合使用时表现更好。为了理解这一点,让我们来看看 Hadoop 和 Spark 的特性。
2.3.1 Hadoop 的特性
2.3.2 Spark 的特性
当这两个框架结合起来的时候,我们就得到了具有内存级性能的企业级应用的威力,如图2-11 所示。
关于 Spark 的常见问题
以下是从业者对 Spark 提出的常见问题:
我的数据集无法完全放进内存。我该如何使用 Spark 呢?
如果数据无法完全放进内存,Spark 的运算符会让数据分散到磁盘里,从而使