当前位置: 开发笔记 > 编程语言 > 正文

从零开始学习Spark（一）环境配置，实现WordCount

作者：拍友2502914513 | 来源：互联网 | 2023-08-31 10:21

环境配置，Spark实现WordCount本人准备参加腾讯实习，有关大数据与机器学习。由于本人对大数据一无所知，因此准备由Spark作为切入口开始自学，一步步完成机器学习各个算法在

环境配置，Spark实现WordCount

本人准备参加腾讯实习，有关大数据与机器学习。由于本人对大数据一无所知，因此准备由Spark作为切入口开始自学，一步步完成机器学习各个算法在Spark上的应用。自学过程中的点点滴滴都会记录在简书上，希望可以与大家交流，共同学习。

配环境永远是开始学习一个新领域最难的一部分，我花了两天时间配置成功了MacOS下的Spark开发环境，实现了基于Scala与sbt的WordCount，下面来一步步把步骤记录下来。

第1步：配置sbt在IntelliJ下编程环境

打开terminal

查看java版本，由于MacOS自带java，因此无需安装

$ java -version

安装sbt，这是编译scala的工具

$ brew install sbt

查看sbt与scala信息

$ sbt about

下载安装IntelliJ

安装Scala Plugin：打开IntelliJ，在选择项目界面，选择Configure → Plugins → Install JetBrains Plugins，搜索Scala并安装

选择默认SDK：Configure → Project defaults → Project structure，SDK选择Java1.8

至此scala在IntelliJ下的开发环境配置完毕

第2步：配置Spark工具包

下载Spark：下载地址，注意如果已经安装了Hadoop的话要下载对应的版本，下面的命令可以查看Hadoop版本

$ hadoop version

下载完毕后解压并将其放在一个目录下，假设放在/usr/shar/spark-2.1.0-bin-hadoop2.7，那么我们往环境变量中添加Spark方便以后使用

$ vim .bash_profile

加入一行，保存后重启terminal即可

export SPARK_HOME=/usr/shar/spark-2.1.0-bin-hadoop2.7

至此，Spark环境配置完毕，是不是非常方便

第3步：命令行形式操控Spark

(1) Python Spark

terminal中执行命令

$ $SPARK_HOME/bin/pyspark

看到帅气的Spark logo就表示已经成功了

美中不足的是自带的python shell没有自动补全等功能，使用ipython可以完美解决

首先，安装ipython

$ pip install ipython

运行Spark

$ PYSPARK_DRIVER_PYTHON=ipython $SPARK_HOME/bin/pyspark

让我们来使用一些Spark的API来尝试一些命令

>>> lines = sc.textFile("README.md") # 创建一个名为lines的RDD >>> lines.count() # 统计RDD中的元素个数 127 >>> lines.first()

(2) Scala Spark Shell

$ $SPARK_HOME/bin/spark-shell

同样完成一下行数统计的小应用

scala> val lines = sc.textFile("README.md") // 创建一个名为lines的RDD lines: spark.RDD[String] = MappedRDD[...] scala> lines.count() // 统计RDD中的元素个数 res0: LOng= 127 scala> lines.first() // 这个RDD中的第一个元素，也就是README.md的第一行 res1: String = # Apache Spark

第4步：构建Spark独立应用，WordCount

上面的是shell形式下调用Spark，而现在进入更为重要的建立独立项目，我看了很多教程，但是每个教程都有一步两步讲的含糊不清，或者就是版本太老，留下了许多坑。现在我总结了一个可以跑通的例子。

首先，IntelliJ下创建sbt项目：打开IntelliJ → Create New Project → Scala → sbt → ProjectName = wordcount → Create

修改build.sbt，在最后加入一行Spark的包。注意scalaVersion一定要改成2.11，因为Spark2.1.0是基于Scala2.11的，默认的2.12会报错！

name := "wordcount" version := "1.0" scalaVersion := "2.11.7" libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"

让我们先来看一下sbt项目的目录结构

├── build.sbt ├── project │ ├── build.properties │ ├── plugins.sbt │ ├── project │ └── target ├── src │ ├── main │ │ ├── java │ │ ├── resources │ │ ├── scala │ │ └── scala-2.12 │ └── test │ ├── java │ ├── resources │ ├── scala │ └── scala-2.12 └── target ├── resolution-cache ├── scala-2.12 └── streams

我们需要写的代码主要放在/src/main/scala里面

下一步，我们开始写我们的代码，具体细节不用深究，本章节只是为了配通环境

新建目录/src/main/scala/com/oreilly/learningsparkexamples/mini/scala

添加第一个文件/src/main/scala/com/oreilly/learningsparkexamples/mini/scala/BasicMap.scala

/** * Illustrates a simple map in Scala */ package com.oreilly.learningsparkexamples.scala import org.apache.spark._ object BasicMap { def main(args: Array[String]) { val master = args.length match { case x: Int if x > 0 => args(0) case _ => "local" } val sc = new SparkContext(master, "BasicMap", System.getenv("SPARK_HOME")) val input = sc.parallelize(List(1,2,3,4)) val result = input.map(x => x*x) println(result.collect().mkString(",")) } }

添加第二个文件/src/main/scala/com/oreilly/learningsparkexamples/mini/scala/WordCount.scala

/** * Illustrates flatMap + countByValue for wordcount. */ package com.oreilly.learningsparkexamples.mini.scala import org.apache.spark._ import org.apache.spark.SparkContext._ object WordCount { def main(args: Array[String]) { val inputFile = args(0) val outputFile = args(1) val cOnf= new SparkConf().setAppName("wordCount") // Create a Scala Spark Context. val sc = new SparkContext(conf) // Load our input data. val input = sc.textFile(inputFile) // Split up into words. val words = input.flatMap(line => line.split(" ")) // Transform into word and count. val counts = words.map(word => (word, 1)).reduceByKey{case (x, y) => x + y} // Save the word count back out to a text file, causing evaluation. counts.saveAsTextFile(outputFile) } }

点击右上角的Build Project图标就编译成功了，如果没有报错，那么恭喜你，环境配置成功了。

第5步：使用spark-submit来运行应用

spark-submit脚本可以为我们配置 Spark 所要用到的一系列环境变量。

首先需要将我们编译好的项目打包，最方便的方式就是进入wordcount目录下，输入

$ sbt package

打包好的文件就在/wordcount/target/scala-2.11/wordcount_2.11-1.0.jar

接下来就是利用Spark为我们提供的spark-submit来运行应用了，进入wordcount目录下

$ $SPARK_HOME/bin/spark-submit \ --class com.oreilly.learningsparkexamples.mini.scala.WordCount \ ./target/scala-2.11/wc_2.11-1.0.jar \ ./input.txt ./wordcounts

下面来简单解释一下上面的命令，--class为使用的Class，后面为jar包的路径，最后两个为wordcount的两个参数，分别为输入文件，和输出文件路径

我们的输入文件\wordcount\input.txt是这样的

one two three four four five six one five six one one three

运行后，如果成功会在\wordcount\wordcounts\part-00000中看到

(two,1) (one,4) (six,2) (three,2) (five,2) (four,2)

至此，我们的整个环境都配置成功啦，有问题请留言

参考资料

Spark官方文档Quick-start

用SBT编译Spark的WordCount程序

Big Data Analysis with Scala and Spark 洛桑联邦理工学院 &＃8211; Coursera

推荐阅读

io
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
spring
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
python
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
io
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
io
Bootstrap 插件使用指南

本文详细介绍了如何在 Web 前端开发中使用 Bootstrap 插件，包括自动触发插件的方法、插件的引用方式以及具体的实例。 ... [详细]

蜡笔小新 2024-11-15 12:24:25
io
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
version
Java初学者的一天

本文介绍了Java编程语言的基础知识，包括其历史背景、主要特性以及如何安装和配置JDK。此外，还详细讲解了如何编写和运行第一个Java程序，并简要介绍了Eclipse集成开发环境的安装和使用。 ... [详细]

蜡笔小新 2024-11-14 18:05:41
request
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
io
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
io
如何高效查看Java API和源码

在Java学习过程中，查看API文档和源码是提高编程能力的重要手段。本文将详细介绍如何使用各种工具和方法高效地查看Java API和源码。 ... [详细]

蜡笔小新 2024-11-14 09:03:54
io
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
io
Linux 环境下 Java 及相关软件的安装指南

本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis，并提供了相应的环境配置和验证步骤。 ... [详细]

蜡笔小新 2024-11-13 18:10:16
io
如何精通编程语言：全面指南与实用技巧

如何精通编程语言：全面指南与实用技巧 ... [详细]

蜡笔小新 2024-11-07 11:56:01
io
a16z深入解析：代币设计的常见误区、优化策略及未来趋势分析

a16z深入解析：代币设计的常见误区、优化策略及未来趋势分析 ... [详细]

蜡笔小新 2024-11-06 14:52:58
include
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09

拍友2502914513

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章