spark(javaAPI)在IntellijIDEA中开发并运行

作者：小甜甜小小郭 | 来源：互联网 | 2023-08-01 09:31

spark,java,api,在,intellij,idea

概述：Spark 程序开发，调试和运行，intellij idea开发Spark java程序。
分两部分，第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分，将开发程序提交到Spark local或者hadoop YARN集群运行。Github项目源码

图1，直接在intellij IDEA(社区版)中开发调试，直接run。

spark hadoop intellij idea java 程序开发

图2，直接在intellij IDEA(社区版)中用hadoop YARN模式。

这里写图片描述

Github项目源码

1.(第一部分)使用intellij IDEA创建一个Java的Maven项目。Github项目源码

初始化的MAVEN项目如下

这里写图片描述

2.根据Spark官网实例做二次开发Github项目源码

2.1.创建SimpleApp.java文件 `SimpleApp.java`

/** * MIT. * Author: wangxiaolei(王小雷). * Date:17-2-7. * Project:SparkJavaIdea. */ import org.apache.spark.api.java.*; import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.Function; public class SimpleApp { public static void main(String[] args) { String logFile = "file:///opt/spark-2.1.0-bin-hadoop2.7/README.md"; // Should be some file on your system SparkConf cOnf= new SparkConf().setAppName("Simple Application"); JavaSparkContext sc = new JavaSparkContext(conf); JavaRDD logData = sc.textFile(logFile).cache(); long numAs = logData.filter(new Function() { public Boolean call(String s) { return s.contains("a"); } }).count(); long numBs = logData.filter(new Function() { public Boolean call(String s) { return s.contains("b"); } }).count(); System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs); sc.stop(); } }

2.2.修改pom.xml文件 `pom.xml`

 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0modelVersion> <groupId>wangxiaoleigroupId> <artifactId>SparkJavaIdeaartifactId> <version>1.0-SNAPSHOTversion> <dependencies> <dependency>  <groupId>org.apache.sparkgroupId> <artifactId>spark-core_2.11artifactId> <version>2.1.0version> dependency> dependencies> project>

3.在intellij IDEA中运行Spark程序

3.1 设置IDEA运行项的Configuration中的VM opthion 增加`-Dspark.master=local`

这里写图片描述

3.2.右键SimpleApp.java 点击运行，稍等片刻看到运行成功。

已经将Readme.md中的单词a和b统计出来了Lines with a: 62, lines with b: 30

这里写图片描述

至此，Spark在intellij IDEA中开发，并在IDEA中运行成功！

4.(第二部分)将intellij IDEA中的Spark java程序打包成jarGithub项目源码

这里写图片描述

5.spark local模式运行

5.1.使用intellij IDEA的Terminal或者是系统（博主是Ubuntu）的Terminal，在当前项目路径（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）执行如下代码。

/opt/spark-2.1.0-bin-hadoop2.7/bin/spark-submit \ --class "SimpleApp" \  --master local[4] \  target/SparkJavaIdea-1.0-SNAPSHOT.jar

这里写图片描述

至此，Spark local模式程序开发和运行成功！

6.YARN集群模式（或伪分布式）运行.——需要有集群环境或者提前配置好了伪分布式环境，伪分布式环境搭建参考另一篇博文Ubuntu16.04安装Hadoop2.6+Spark1.6+开发实例

6.1.开启hadoop集群，开启Spark。

# 初次搭建集群需要格式化namenode（已经初始化过可省略） /opt/hadoop-2.7.3/bin/hdfs namenode -format #开启hadoop集群（伪分布式） /opt/hadoop-2.7.3/sbin/start-all.sh #开启Spark /opt/spark-2.1.0-bin-hadoop2.7/sbin/start-all.sh #查看开启状态 jps

这里写图片描述

6.2 使用intellij IDEA的Terminal或者是系统（博主是Ubuntu）的Terminal，在当前项目路径（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）执行如下代码。

/opt/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --class SimpleApp --master yarn --deploy-mode cluster target/SparkJavaIdea-1.0-SNAPSHOT.jar

这里写图片描述

至此，Spark在intellij IDEA中开发，并在hadoop YARN模式下运行成功！

6.3.在Web中查看Github项目源码

http://localhost:8088/cluster/apps

这里写图片描述

至此，Spark在intellij IDEA中开发，并在hadoop YARN模式下运行成功！

推荐阅读

text
Android 7自学笔记总结、移动架构视频、安卓面试真题、项目实战源码讲义

本文介绍了Android 7的学习笔记总结，包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容，并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同，否则会出现问题。 ... [详细]

蜡笔小新 2023-12-13 10:06:58
text
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
text
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
text
com.evernote.android.job.JobRequest.getTransientExtras()方法的使用及代码示例

本文整理了Java中com.evernote.android.job.JobRequest.getTransientExtras()方法的一些代码示例，展示了 ... [详细]

蜡笔小新 2023-12-09 10:33:37
cmd
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
text
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
text
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
install
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
config
MapReduce 切片机制源码分析

总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]

蜡笔小新 2023-10-16 13:03:18
text
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
text
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
text
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
text
DSP中cmd文件的命令文件组成及其作用

本文介绍了DSP中cmd文件的命令文件的组成和作用，包括链接器配置文件的存放链接器配置信息、命令文件的组成、MEMORY和SECTIONS两个伪指令的使用、CMD分配ROM和RAM空间的目的以及MEMORY指定芯片的ROM和RAM大小和划分区间的方法。同时强调了根据不同芯片进行修改的必要性，以适应不同芯片的存储用户程序的需求。 ... [详细]

蜡笔小新 2023-12-10 15:31:37
string
Java多线程总结（8）concurrent.locks包下的锁机制的使用

1Lock与ReadWriteLock1.1LockpublicinterfaceLock{voidlock();voidlockInterruptibl ... [详细]

蜡笔小新 2023-12-09 09:15:17
install
程序员如何选择机械键盘轴体？红轴和茶轴对比

本文介绍了程序员如何选择机械键盘轴体，特别是红轴和茶轴的对比。同时还介绍了U盘安装Linux镜像的步骤，以及在Linux系统中安装软件的命令行操作。此外，还介绍了nodejs和npm的安装方法，以及在VSCode中安装和配置常用插件的方法。最后，还介绍了如何在GitHub上配置SSH密钥和git的基本配置。 ... [详细]

蜡笔小新 2023-12-09 05:31:17