热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

spark提交python程序_Spark提交任务

Spark提交任务的方式可以通过Python代码提交,也可以通过shell脚本提交,通过Python提交的方式在前面也已经使用过,这些就单

Spark 提交任务的方式可以通过 Python 代码提交,也可以通过 shell 脚本提交,通过 Python 提交的方式在前面也已经使用过,这些就单独讲一下 shell 提交的方式

zip dependency.zip -r src/

if [[ $@ == *'yarn'* ]]

then

mode=yarn

else

mode=local

fi

echo $mode

if [[ $mode == 'yarn' ]]

then

spark-submit \

--name hive_field_check@huzhuo \

--master yarn \

--py-files dependency.zip \

--queue aisearchOffline \

--executor-cores 4 \

--num-executors 100 \

--executor-memory 4G \

--conf spark.default.parallelism=1200 \

--conf spark.storage.memoryFraction=0.6 \

--conf spark.sql.shuffle.partitions=400 \

--conf spark.shuffle.memoryFraction=0.3 \

--conf spark.network.timeout=800 \

--conf spark.yarn.executor.memoryOverhead=2048 \

--conf spark.storage.blockManagerTimeoutIntervalMs=100000 \

--conf spark.speculation=true \

--conf spark.driver.maxResultSize=0 \

--conf spark.yarn.dist.archives=hdfs目录/python.zip#python \

--conf spark.executorEnv.PYSPARK_DRIVER_PYTHON=python/bin/python2.7 \

--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=python/bin/python2.7 \

--conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=python/bin/python2.7 \

src/empty_field_stat.py $@

elif [[ $mode == 'local' ]]

then

spark-submit \

--master local[8] \

--py-files dependency.zip \

--conf spark.pyspark.python=/home/work/software/python \

src/empty_field_stat.py

fi

这里注意的几个点:需要将程序中所有依赖的自定义 Python 文件一同打包上传到 HDFS 上,否则运行的时候回提示缺少依赖

本地化和集群运行最好都指定 Python 的解释器目录,以免运行的时候出现依赖问题



推荐阅读
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • 恶意软件分析的最佳编程语言及其应用
    本文介绍了学习恶意软件分析和逆向工程领域时最适合的编程语言,并重点讨论了Python的优点。Python是一种解释型、多用途的语言,具有可读性高、可快速开发、易于学习的特点。作者分享了在本地恶意软件分析中使用Python的经验,包括快速复制恶意软件组件以更好地理解其工作。此外,作者还提到了Python的跨平台优势,使得在不同操作系统上运行代码变得更加方便。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行-- ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • 前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ... [详细]
  • Azkaban(三)Azkaban的使用
    界面介绍首页有四个菜单projects:最重要的部分,创建一个工程,所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]
  • 本文详细介绍了GetModuleFileName函数的用法,该函数可以用于获取当前模块所在的路径,方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释,帮助读者理解和使用该函数。同时,还提供了相关的API函数声明和说明。 ... [详细]
  • 本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存,其中系统内存占用了一部分SDRAM,而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念,常用于消费电子设备中。此外,文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • MapReduce 切片机制源码分析
     总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]
  • 既然HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]
author-avatar
lucksy689
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有