热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PythonPySpark简介

在本章中,我们将了解ApacheSpark是什么以及PySpark是如何开发的。Spark-概述ApacheSpark是一个闪电般快速的实时处理框架。它进

在本章中,我们将了解Apache Spark是什么以及PySpark是如何开发的。

Spark - 概述

Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能,因此它开始出现。因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理。

除了实时和批处理之外,Apache Spark还支持交互式查询和迭代算法。Apache Spark有自己的集群管理器,可以托管其应用程序。它利用Apache Hadoop进行存储和处理。它使用 HDFS (Hadoop分布式文件系统)进行存储,它也可以在 YARN 上运行Spark应用程序。

PySpark - 概述

Apache Spark是用 Scala编程语言 编写的。为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j

的库,他们才能实现这一目标。

PySpark提供了 PySpark Shell ,它将Python API链接到spark核心并初始化Spark上下文。今天,大多数数据科学家和分析专家都使用Python,因为它具有丰富的库集。将Python与Spark集成对他们来说是一个福音。

PySpark教程导航




















PySpark简介PySpark环境设置PySpark SparkContextPySpark RDDPySpark广播与累积器
PySpark SparkConfPySpark SparkFilesPySpark StorageLevelPySpark MLlibPySpark Serializers



推荐阅读
author-avatar
一剑吹雪_811
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有