当前位置: 开发笔记 > 编程语言 > 正文

spark提交python程序_Spark提交任务

作者：lucksy689 | 来源：互联网 | 2023-09-01 15:14

Spark提交任务的方式可以通过Python代码提交，也可以通过shell脚本提交，通过Python提交的方式在前面也已经使用过，这些就单

Spark 提交任务的方式可以通过 Python 代码提交&＃xff0c;也可以通过 shell 脚本提交&＃xff0c;通过 Python 提交的方式在前面也已经使用过&＃xff0c;这些就单独讲一下 shell 提交的方式

zip dependency.zip -r src/

if [[ $&＃64; &＃61;&＃61; *&＃39;yarn&＃39;* ]]

then

mode&＃61;yarn

else

mode&＃61;local

echo $mode

if [[ $mode &＃61;&＃61; &＃39;yarn&＃39; ]]

then

spark-submit \

--name hive_field_check&＃64;huzhuo \

--master yarn \

--py-files dependency.zip \

--queue aisearchOffline \

--executor-cores 4 \

--num-executors 100 \

--executor-memory 4G \

--conf spark.default.parallelism&＃61;1200 \

--conf spark.storage.memoryFraction&＃61;0.6 \

--conf spark.sql.shuffle.partitions&＃61;400 \

--conf spark.shuffle.memoryFraction&＃61;0.3 \

--conf spark.network.timeout&＃61;800 \

--conf spark.yarn.executor.memoryOverhead&＃61;2048 \

--conf spark.storage.blockManagerTimeoutIntervalMs&＃61;100000 \

--conf spark.speculation&＃61;true \

--conf spark.driver.maxResultSize&＃61;0 \

--conf spark.yarn.dist.archives&＃61;hdfs目录/python.zip#python \

--conf spark.executorEnv.PYSPARK_DRIVER_PYTHON&＃61;python/bin/python2.7 \

--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON&＃61;python/bin/python2.7 \

--conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON&＃61;python/bin/python2.7 \

src/empty_field_stat.py $&＃64;

elif [[ $mode &＃61;&＃61; &＃39;local&＃39; ]]

then

spark-submit \

--master local[8] \

--py-files dependency.zip \

--conf spark.pyspark.python&＃61;/home/work/software/python \

src/empty_field_stat.py

这里注意的几个点&＃xff1a;需要将程序中所有依赖的自定义 Python 文件一同打包上传到 HDFS 上&＃xff0c;否则运行的时候回提示缺少依赖

本地化和集群运行最好都指定 Python 的解释器目录&＃xff0c;以免运行的时候出现依赖问题

推荐阅读

storage
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
c语言
恶意软件分析的最佳编程语言及其应用

本文介绍了学习恶意软件分析和逆向工程领域时最适合的编程语言，并重点讨论了Python的优点。Python是一种解释型、多用途的语言，具有可读性高、可快速开发、易于学习的特点。作者分享了在本地恶意软件分析中使用Python的经验，包括快速复制恶意软件组件以更好地理解其工作。此外，作者还提到了Python的跨平台优势，使得在不同操作系统上运行代码变得更加方便。 ... [详细]

蜡笔小新 2023-12-10 18:39:23
ip
python发送文件传输助手_python 通过 socket 发送文件的实例代码

{moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]

蜡笔小新 2023-10-17 20:20:31
ip
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
ip
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
php
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
ip
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
ip
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
string
获取当前模块所在路径的GetModuleFileName函数用法详解

本文详细介绍了GetModuleFileName函数的用法，该函数可以用于获取当前模块所在的路径，方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释，帮助读者理解和使用该函数。同时，还提供了相关的API函数声明和说明。 ... [详细]

蜡笔小新 2023-12-14 19:29:57
string
Wince程序内存和存储内存的分析及作用

本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存，其中系统内存占用了一部分SDRAM，而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念，常用于消费电子设备中。此外，文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]

蜡笔小新 2023-12-10 16:21:27
ip
添加数据库mysql数据库文件_添加数据库mysql数据库文件

{moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]

蜡笔小新 2023-10-17 10:01:27
ip
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
ip
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
client
MapReduce 切片机制源码分析

总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]

蜡笔小新 2023-10-16 13:03:18
copy
Hadoop框架之HDFS的shell操作

既然HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]

蜡笔小新 2023-10-15 16:12:13

lucksy689

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章