sparkpython编程_Spark（四）：python编程示例

作者：QQweiqiang_850 | 来源：互联网 | 2023-08-25 12:52

下面以一个简单的例子，介绍下如何用python编程，并提交到yarn上执行。环境准备SparkContext是spark编程的基石，后面的

下面以一个简单的例子&＃xff0c;介绍下如何用python编程&＃xff0c;并提交到yarn上执行。

环境准备

SparkContext是spark编程的基石&＃xff0c;后面的SqlConext等等都是基于SparkContext。它作为python的lib&＃xff0c;在pyspark库中提供&＃xff0c;同时它还依赖py4j&＃xff0c;所以我们要做的第一件事就是修改系统的python路径&＃xff0c;把它俩加进去&＃xff1a;

cd /usr/local/lib/python2.7/dist-packages/

echo "/home/ieevee/spark/spark-1.6.1-bin-hadoop2.6/python/" >> spark.pth

echo "/home/ieevee/spark/spark-1.6.1-bin-hadoop2.6/python/lib/py4j-0.9-src.zip" >> spark.pth

上面的路径替换为你放spark的实际路径。

不推荐直接在./bin/pyspark来做处理&＃xff0c;它比较重&＃xff0c;并且掩盖了sc的创建过程。其实作为一个应用&＃xff0c;需要的只是pyspark库&＃xff0c;官方管这种叫做“self-contained”。

编码

我的例子非常简单&＃xff0c;将一个csv文件放到HDFS上&＃xff0c;计算下有多少行&＃xff0c;打印下第一行(官网的例子)。代码如下(1.py)&＃xff1a;

from pyspark import SparkContext

if __name__ &＃61;&＃61; "__main__":

sc &＃61; SparkContext(appName&＃61;"test1")

textFile &＃61; sc.textFile("/test.csv")

print textFile.count()

print textFile.first()

sc.stop()

集群上执行

生产环境上&＃xff0c;任务都是在YARN上执行的&＃xff0c;所以需要把这个任务submit上去&＃xff1a;

{your_spark_home}/bin/spark-submit --master yarn 1.py

在yarn上可以看到这个application的记录。当然需要先配置好YARN需要的配置文件&＃xff0c;具体可以参考第二篇文章中SPARK ON YARN部分。

推荐阅读

future
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
int
深入掌握Scala面向对象编程与Spark源码解析

在第二课中，我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先，通过详细的实战案例，全面解析Scala中的类和对象。作为一门纯面向对象的语言，Scala的类设计和对象使用是理解其面向对象特性的关键。此外，我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能，还能为后续的高级应用开发打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-03 14:51:55
int
如何在Spark数据排序过程中有效避免内存溢出（OOM）问题

本文深入探讨了在使用Spark进行数据排序时如何有效预防内存溢出（OOM）问题。通过具体的代码示例，详细阐述了优化策略和技术手段，为读者在实际工作中遇到类似问题提供了宝贵的参考和指导。 ... [详细]

蜡笔小新 2024-11-01 16:55:53
split
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
replace
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
split
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
random
Python编程实现足球联赛赛程安排的策略与简易示例分析

每年，意甲、德甲、英超和西甲等各大足球联赛的赛程表都是球迷们关注的焦点。本文通过 Python 编程实现了一种生成赛程表的方法，该方法基于蛇形环算法。具体而言，将所有球队排列成两列的环形结构，左侧球队对阵右侧球队，首支队伍固定不动，其余队伍按顺时针方向循环移动，从而确保每场比赛不重复。此算法不仅高效，而且易于实现，为赛程安排提供了可靠的解决方案。 ... [详细]

蜡笔小新 2024-11-07 17:41:40
int
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
uri
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
int
【Python编程基础】深入理解Python中的循环结构

在《Python编程基础》课程中，我们将深入探讨Python中的循环结构。通过详细解析for循环和while循环的语法与应用场景，帮助初学者掌握循环控制语句的核心概念和实际应用技巧。此外，还将介绍如何利用循环结构解决复杂问题，提高编程效率和代码可读性。 ... [详细]

蜡笔小新 2024-11-04 15:46:58
int
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
split
Spark MLlib 之 Basic Statistics

SparkMLlib提供了一些基本的统计学的算法，下面主要说明一下：1、Summarystatistics对于RDD[Vector]类型，SparkMLlib提供了colStats ... [详细]

蜡笔小新 2024-10-15 12:46:50
require
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
random
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
random
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27

QQweiqiang_850

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章