作者:小哥脾气 | 来源:互联网 | 2023-09-17 18:00
1.5 Spark RDD和DataFrame
本节关注数据以及Spark如何表示和组织数据。我们将介绍Spark RDD和DataFrame技术。
通过本节的学习,读者将掌握Spark的两个关键概念:RDD和DataFrame,并将它们应用于机器学习项目。
1.5.1 Spark RDD
Spark主要以一种分布式项集合的形式进行数据抽象,称之为弹性分布式数据集(Resilient Distributed Dataset,RDD)。RDD是Spark的关键创新,使其比其他框架计算更加快速和高效。
特别地,RDD是不可改变的对象集合,分布在集群之中。它静态地定义对象类型,例如RDD[T]对象类型则是T,主要有字符串RDD、整数RDD和对象RDD。
此外,RDD:
是基于用户划分的分布在集群上的对象集合
由并行转换器(如map和filter)创建
也