热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

一.Spark在Windows下的环境搭建

由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Sca

由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。   

一.JDK的安装与环境变量的设置

1.1 JDK的安装

  JDK(全称是JavaTM Platform Standard Edition Development Kit)的安装,下载地址是Java SE Downloads,一般进入页面后,会默认显示一个最新版的JDK,如下图所示,当前最新版本是JDK 8,更为详细具体的地址是Java SE Development Kit 8 Downloads:

《一. Spark在Windows下的环境搭建》
《一. Spark在Windows下的环境搭建》

  上图中两个用红色标记的地方都是可以点击的,点击进去之后可以看到这个最新版本的一些更为详细的信息,如下图所示:

《一. Spark在Windows下的环境搭建》
《一. Spark在Windows下的环境搭建》

  首先,这里主要包含有8u101和8u102这两个版本,Java给出的官方说明是:

“Java SE 8u101 includes important security fixes. Oracle strongly recommends that all Java SE 8 users upgrade to this release. Java SE 8u102 is a patch-set update, including all of 8u101 plus additional features (described in the release notes). ”

  也就是说Java推荐所有开发人员从以前的版本升级到JDK 8u101,而JDK 8u102则除了包括101的所有特性之外,还有一些其他的特性。对于版本的选择,自行选择就好了,其实对于普通开发人员来说,体现不了太大的区别,我这里就是使用的JDK 8u101版本。

  选好8u101版本后,再选择你的对应开发平台,由于我的机器是64位的,所以我这里选择Windows64位的版本。记得在下载之前,必须要接受上方的许可协议,在上图中用红色圈出。      除了下载最新版本的JDK,也可以在Oracle Java Archive下载到历史版本的JDK,但官方建议只做测试用。      JDK在windows下的安装非常简单,按照正常的软件安装思路去双击下载得到的exe文件,然后设定你自己的安装目录(安装目录在设置环境变量的时候需要用到)即可。   

1.2 环境变量的设置

  接下来设置相应的环境变量,设置方法为:在桌面右击【计算机】--【属性】--【高级系统设置】,然后在系统属性里选择【高级】--【环境变量】,然后在系统变量中找到“Path”变量,并选择“编辑”按钮后出来一个对话框,可以在里面添加上一步中所安装的JDK目录下的bin文件夹路径名,我这里的bin文件夹路径名是:F:\Program Files\Java\jdk1.8.0_101\bin,所以将这个添加到path路径名下,注意用英文的分号“;”进行分割。这样设置好后,便可以在任意目录下打开的cmd命令行窗口下运行

java -version

观察是否能够输出相关java的版本信息,如果能够输出,说明JDK安装这一步便全部结束了。

  全部流程如下图所示(后续软件安装的系统变量设置都是这套流程):

《一. Spark在Windows下的环境搭建》
《一. Spark在Windows下的环境搭建》

1.3 一些题外话

    这里讲两句题外话,各位看官不关心的话可以跳过这里,不影响后续的安装步骤。   在软件安装的时候,相信各位没少遇到过环境变量和系统变量,所以这里就来扒一扒令人头疼的PATH, CLASSPATH和JAVA_HOME等参数的具体含义。

1.3.1 环境变量、系统变量和用户变量

  • 环境变量包括系统变量和用户变量
  • 系统变量的设置针对该操作系统下的所有用户起作用;
  • 用户变量的设置只针对当前用户起作用

如果对这些概念还不是特别熟悉的,建议先看完下面几个点之后,再回过头来看这三句话。

1.3.2 PATH

  也就是上一步设置的系统变量,告诉操作系统去哪里找到Java.exe的执行路径,当你在命令行窗口冷不丁的敲上如下命令的时候,

java -version

操作系统首先会一惊,What the hell does “java” mean? 不过吐槽归吐槽,活还是得干,于是悠悠的记起来了盖茨爸爸说过的三句话:

  1. 当你看不懂命令行窗口中的一个命令的时候,你首先去你所在的当前目录下找找,是否有这个命令的.exe程序?如果有,那就用它来启动执行;
  2. 如果没有,千万别放弃,记得要去Path系统变量下的那些目录下去找一找,如果找到了,启动并执行命令;
  3. 如果上面两个地方依然还没找到,那你就撒个娇,报个错好了。

所以我们将JDK安装目录下的bin文件夹添加到Path系统变量的目的也就在这里,告诉操作系统:如果在当前目录下找不到java.exe,就去Path系统变量里的那些路径下挨个找一找,直到找到java.exe为止。那为什么要设置bin文件夹,而不是JDK安装的根目录呢?原因就在于根目录下没有java.exe啊,只有bin文件夹下才有啊喂……

如果只是在命令行窗口下运行一下java的命令,那其实也可以不设置系统变量,只是每次在命令行窗口运行java的命令时,都必须带上一长串路径名,来直接指定java.exe的位置,如下所示。

C:\Users\weizierxu>F:\Program Files\Java\jdk1.8.0_101\bin\java.exe -version
'F:\Program' 不是内部或外部命令,也不是可运行的程序
或批处理文件。

注意:这里报错的原因并不是说直接指定java.exe的路径名这种方式有问题,而是命令行下无法解析带有空格的路径名,所以需要用到双引号,如下:

C:\Users\weizierxu>"F:\Program Files"\Java\jdk1.8.0_101\bin\java.exe -version
java version "1.8.0_101"
Java(TM) SE Runtime Environment (build 1.8.0_101-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode)

1.3.3 CLASSPATH

  CLASSPATH是在Java执行一个已经编译好的class文件时,告诉Java去哪些目录下找到这个class文件,比如你的程序里用到某个Jar包(Jar包里的都是已经编译好的class文件),那么在执行的时候,Java需要找到这个Jar包才行,去哪找呢?从CLASSPATH指定的目录下,从左至右开始寻找(用分号区分开的那些路径名),直到找到你指定名字的class文件,如果找不到就会报错。这里做一个实验,就能明白具体是什么意思了。
  首先,我在F:\Program Files\Java目录下,利用Windows自带的记事本写了一个类似于Hello World的程序,保存为testClassPath.java文件(注意后缀名得改成java),内容如下:

public class testClassPath{
public static void main(String[] args){
System.out.println("Hello, this is a test on CLASSPATH!");
}
}

然后,我将cmd的当前目录切换到(通过cd命令)F:\Program Files\Java目录下,然后用javac命令来对这个.java文件进行编译,如下图所示:

《一. Spark在Windows下的环境搭建》
《一. Spark在Windows下的环境搭建》

从上图中可以看到,javac命令可以正常使用(没有任何输出的就表明正确编译了),这是因为执行该命令的javac.exe同样存在于JDK安装路径下的bin目录中,而这个目录我们已经添加到Path系统变量中去了,所以cmd能够认识这个命令。这个时候可以看到F:\Program Files\Java目录下多了一个testClassPath.class文件。不过运行这个class文件的时候,报错了。这个时候,CLASSPATH就派上用场了,和1.2节中对Path系统变量设置的方法一样,这里在CLASSPATH(如果系统变量的列表中没有CLASSPATH这个选项,那么点击新建,然后添加路径即可)中最后面添加上;.,英文的分号表示和前面已有的路径分割开,后面的小点.表示当前目录的意思。

这个时候记得要另起一个新的cmd窗口,然后利用cd命令切换到testClassPath.class所在目录,然后再去执行,便可以成功得到结果了。

F:\Program Files\Java>java testClassPath
Hello, this is a test on CLASSPATH!

  因此,和Path变量不同的是,Java在执行某个class文件的时候,并不会有默认的先从当前目录找这个文件,而是只去CLASSPATH指定的目录下找这个class文件,如果CLASSPATH指定的目录下有这个class文件,则开始执行,如果没有则报错(这里有去当前目录下找这个class文件,是因为当前路径通过.的方式,已经添加到了CLASSPATH系统变量中)。
  上面讲的指定CLASSPATH系统变量的方法,都是直接写死在系统变量中的,为了避免造成干扰(比如多个同名class文件存在于多个路径中,这些路径都有添加到CLASSPATH系统变量中,由于在找class文件的时候,是从左往右扫描CLASSPATH系统变量中的路径的,所以在利用java testClassPath方法执行的时候,运行的便是位置在CLASSPATH系统变量中最左边的那个路径中,对应的class文件,而这显然不是我们想要的结果),因此在诸如Eclipse等等这些IDE中,并不需要人为手动设定CLASSPATH系统变量,而是只设定当前程序的特定的CLASSPATH系统变量,这样便不会影响到其他程序的运行了。

1.3.4 JAVA_HOME

JAVA_HOME并不是Java本身所需要的参数,而是其他的一些第三方工具需要这个参数来配置它们自己的参数,它存在的意义无非是告诉那些软件,我的JDK安装在这个目录下,你如果要用到我的Java程序的话,直接来我这个目录下找就好了,而JAVA_HOME就是JDK的安装路径名。比如我的JDK安装在F:\Program Files\Java\jdk1.8.0_101目录下(注意该目录下的bin目录,就是在1.3.2节里Path系统变量中要添加的值),那么JAVA_HOME里要添加的值便是F:\Program Files\Java\jdk1.8.0_101,以后碰到类似HOME的系统变量,都是软件的安装目录。

二. Scala的安装

  首先从DOWNLOAD PREVIOUS VERSIONS下载到对应的版本,在这里需要注意的是,Spark的各个版本需要跟相应的Scala版本对应,比如我这里使用的Spark 1.6.2就只能使用Scala 2.10的各个版本,目前最新的Spark 2.0就只能使用Scala 2.11的各个版本,所以下载的时候,需要注意到这种Scala版本与Spark版本相互对应的关系。我这里现在用的是Scala 2.10.6,适配Spark从1.3.0到Spark 1.6.2之间的各个版本。在版本页面DOWNLOAD PREVIOUS VERSIONS选择一个适合自己需要的版本后,会进入到该版本的具体下载页面,如下图所示,记得下载二进制版本的Scala,点击图中箭头所指,下载即可:

《一. Spark在Windows下的环境搭建》
《一. Spark在Windows下的环境搭建》

  下载得到Scala的msi文件后,可以双击执行安装。安装成功后,默认会将Scala的bin目录添加到PATH系统变量中去(如果没有,和JDK安装步骤中类似,将Scala安装目录下的bin目录路径,添加到系统变量PATH中),为了验证是否安装成功,开启一个新的cmd窗口,输入scala然后回车,如果能够正常进入到Scala的交互命令环境则表明安装成功。如下图所示:

《一. Spark在Windows下的环境搭建》
《一. Spark在Windows下的环境搭建》

如果不能显示版本信息,并且未能进入Scala的交互命令行,通常有两种可能性:

  • Path系统变量中未能正确添加Scala安装目录下的bin文件夹路径名,按照JDK安装中介绍的方法添加即可。
  • Scala未能够正确安装,重复上面的步骤即可。
三. Spark的安装

  Spark的安装非常简单,直接去Download Apache Spark。有两个步骤:

  • 选择好对应Hadoop版本的Spark版本,如下图中所示;
  • 然后点击下图中箭头所指的spark-1.6.2-bin-hadoop2.6.tgz,等待下载结束即可。

《一. Spark在Windows下的环境搭建》
《一. Spark在Windows下的环境搭建》

  这里使用的是Pre-built的版本,意思就是已经编译了好了,下载来直接用就好,Spark也有源码可以下载,但是得自己去手动编译之后才能使用。下载完成后将文件进行解压(可能需要解压两次),最好解压到一个盘的根目录下,并重命名为Spark,简单不易出错。并且需要注意的是,在Spark的文件目录路径名中,不要出现空格,类似于“Program Files”这样的文件夹名是不被允许的。

  解压后基本上就差不多可以到cmd命令行下运行了。但这个时候每次运行spark-shell(spark的命令行交互窗口)的时候,都需要先cd到Spark的安装目录下,比较麻烦,因此可以将Spark的bin目录添加到系统变量PATH中。例如我这里的Spark的bin目录路径为D:\Spark\bin,那么就把这个路径名添加到系统变量的PATH中即可,方法和JDK安装过程中的环境变量设置一致,设置完系统变量后,在任意目录下的cmd命令行中,直接执行spark-shell命令,即可开启Spark的交互式命令行模式。

四.HADOOP下载

  系统变量设置后,就可以在任意当前目录下的cmd中运行spark-shell,但这个时候很有可能会碰到各种错误,这里主要是因为Spark是基于Hadoop的,所以这里也有必要配置一个Hadoop的运行环境。在Hadoop Releases里可以看到Hadoop的各个历史版本,这里由于下载的Spark是基于Hadoop 2.6的(在Spark安装的第一个步骤中,我们选择的是Pre-built for Hadoop 2.6),我这里选择2.6.4版本,选择好相应版本并点击后,进入详细的下载页面,如下图所示,选择图中红色标记进行下载,这里上面的src版本就是源码,需要对Hadoop进行更改或者想自己进行编译的可以下载对应src文件,我这里下载的就是已经编译好的版本,即图中的hadoop-2.6.4.tar.gz文件。

《一. Spark在Windows下的环境搭建》
《一. Spark在Windows下的环境搭建》

   下载并解压到指定目录,然后到环境变量部分设置HADOOP_HOME为Hadoop的解压目录,我这里是F:\Program Files\hadoop,然后再设置该目录下的bin目录到系统变量的PATH下,我这里也就是F:\Program Files\hadoop\bin,如果已经添加了HADOOP_HOME系统变量,也可以用%HADOOP_HOME%\bin来指定bin文件夹路径名。这两个系统变量设置好后,开启一个新的cmd,然后直接输入spark-shell命令。

  正常情况下是可以运行成功并进入到Spark的命令行环境下的,但是对于有些用户可能会遇到空指针的错误。这个时候,主要是因为Hadoop的bin目录下没有winutils.exe文件的原因造成的。这里的解决办法是:   

  • 去 GitHub – steveloughran/winutils: Windows binaries for Hadoop versions (built from the git commit ID used for the ASF relase) 选择你安装的Hadoop版本号,然后进入到bin目录下,找到winutils.exe文件,下载方法是点击winutils.exe文件,进入之后在页面的右上方部分有一个Download按钮,点击下载即可。
  • 下载好winutils.exe后,将这个文件放入到Hadoop的bin目录下,我这里是F:\Program Files\hadoop\bin。
  • 在打开的cmd中输入 F:\Program Files\hadoop\bin\winutils.exe chmod 777 /tmp/hive 这个操作是用来修改权限的。注意前面的F:\Program Files\hadoop\bin部分要对应的替换成实际你所安装的bin目录所在位置。

  经过这几个步骤之后,然后再次开启一个新的cmd窗口,如果正常的话,应该就可以通过直接输入spark-shell来运行Spark了。 正常的运行界面应该如下图所示:

《一. Spark在Windows下的环境搭建》
《一. Spark在Windows下的环境搭建》

从图中可以看到,在直接输入spark-shell命令后,Spark开始启动,并且输出了一些日志信息,大多数都可以忽略,需要注意的是两句话:

Spark context available as sc.
SQL context available as sqlContext.

Spark context和SQL context分别是什么,后续再讲,现在只需要记住,只有看到这两个语句了,才说明Spark真正的成功启动了。

五. Python下的PySpark

  针对Python下的Spark,和Scala下的spark-shell类似,也有一个PySpark,它同样也是一个交互式的命令行工具,可以对Spark进行一些简单的调试和测试,和spark-shell的作用类似。对于需要安装Python的来说,这里建议使用Python(x,y),它的优点就是集合了大多数的工具包,不需要自己再单独去下载而可以直接import来使用,并且还省去了繁琐的环境变量配置,下载地址是Python(x,y) – Downloads,下载完成后,双击运行安装即可。因为本教程主要以Scala为主,关于Python的不做过多讲解。

六. 小结

  至此,基本的Spark本地调试环境便拥有了,对于初步的Spark学习也是足够的。但是这种模式在实际的Spark开发的时候,依然是不够用的,需要借助于一个比较好用的IDE来辅助开发过程。下一讲就主要讲解ItelliJ IDEA以及Maven的配置过程。   

参考
  • PATH and CLASSPATH(Oracle官方给出的一些关于Path和CLASSPATH的解释,推荐)
  • Difference among JAVA_HOME,JRE_HOME,CLASSPATH and PATH
  • Java中设置classpath、path、JAVA_HOME的作用
  • Why does starting spark-shell fail with NullPointerException on Windows?(关于如何解决启动spark-shell时遇到的NullPointerException问题)

本文在Github的地址:

Spark在Windows下的环境搭建

希望你们有事没事,多丢几个星星给我就好了。。。。(请忽略我恬不知耻的要糖吃,哈哈哈。。。。。)


推荐阅读
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • Android系统移植与调试之如何修改Android设备状态条上音量加减键在横竖屏切换的时候的显示于隐藏
    本文介绍了如何修改Android设备状态条上音量加减键在横竖屏切换时的显示与隐藏。通过修改系统文件system_bar.xml实现了该功能,并分享了解决思路和经验。 ... [详细]
  • Android源码深入理解JNI技术的概述和应用
    本文介绍了Android源码中的JNI技术,包括概述和应用。JNI是Java Native Interface的缩写,是一种技术,可以实现Java程序调用Native语言写的函数,以及Native程序调用Java层的函数。在Android平台上,JNI充当了连接Java世界和Native世界的桥梁。本文通过分析Android源码中的相关文件和位置,深入探讨了JNI技术在Android开发中的重要性和应用场景。 ... [详细]
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • 本文介绍了如何清除Eclipse中SVN用户的设置。首先需要查看使用的SVN接口,然后根据接口类型找到相应的目录并删除相关文件。最后使用SVN更新或提交来应用更改。 ... [详细]
  • 大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记
    本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记,包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件,其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • Maven构建Hadoop,
    Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引 序  上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
author-avatar
手机用户2602936393
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有