热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ApacheSpark机器学习.1.5SparkRDD和DataFrame

apache,spark,机器,学习,1,5,spark,rdd,和

1.5 Spark RDD和DataFrame


本节关注数据以及Spark如何表示和组织数据。我们将介绍Spark RDD和DataFrame技术。

通过本节的学习,读者将掌握Spark的两个关键概念:RDD和DataFrame,并将它们应用于机器学习项目。

1.5.1 Spark RDD

Spark主要以一种分布式项集合的形式进行数据抽象,称之为弹性分布式数据集(Resilient Distributed Dataset,RDD)。RDD是Spark的关键创新,使其比其他框架计算更加快速和高效。

特别地,RDD是不可改变的对象集合,分布在集群之中。它静态地定义对象类型,例如RDD[T]对象类型则是T,主要有字符串RDD、整数RDD和对象RDD。

此外,RDD:

是基于用户划分的分布在集群上的对象集合

由并行转换器(如map和filter)创建


推荐阅读
author-avatar
小哥脾气
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有