Spark词频统计–独立应用IntelliJIDEA

作者：拍友2602923913 | 来源：互联网 | 2023-10-12 12:36

这次讲如何在IntelliJIDEA里启动Spark，需要安装Scala插件。版本说明Scala:2.12.8Spark:2.4（对应的Hadoop是2.7）用sbt编译scala

这次讲如何在IntelliJ IDEA里启动Spark，需要安装Scala插件。

版本说明

Scala: 2.12.8
Spark: 2.4 （对应的Hadoop是2.7）

用sbt编译scala，其中build.sbt文件核心配置如下（选择自动下载文件）

scalaVersion := "2.12.8" libraryDependencies += "org.apache.spark" %% "spark-core" % "2.4.0" libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.4.0"

SparkSession

通过spark-shell控制台进入spark时，系统会自动建立spark context。但是在代码里需要自己建立spark context。

先通过SparkSession的builder建立一个Session。

val session = SparkSession.builder() .master("local") .appName("WordCount") .getOrCreate()

Spark Context

然后通过Session建立一个Spark Context

val sc: SparkCOntext= session.sparkContext

这个sc就和通过控制台进入后的sc一样了。之后的代码就是一样的。

完整代码

import org.apache.spark.SparkContext import org.apache.spark.sql.SparkSession import org.apache.spark.sql.SparkSession._ object HelloWord { def wordCountFromString(sc: SparkContext): Unit = { val text = "hello world\nhello scala\nhello python" val lines = text.split("\n") val rdd = sc.parallelize(lines) rdd.foreach(println) val words = rdd.flatMap(_.split(" ")) val wordsWithCount = words.map(w => (w, 1)) val wordCounts = wordsWithCount.reduceByKey(_ + _) wordCounts.foreach(println) } def main(args: Array[String]): Unit = { val session = SparkSession.builder() .master("local") .appName("WordCount") .getOrCreate() val sc: SparkCOntext= session.sparkContext wordCountFromString(sc) sc.stop() } }

推荐阅读

select
Scala核心概念：隐式转换详解

本文深入探讨了Scala中的隐式转换机制，包括其在类扩展、隐式解析规则以及隐式参数和上下文绑定等方面的应用。通过具体示例，详细解释了如何利用隐式转换增强类的功能。 ... [详细]

蜡笔小新 2024-12-14 18:18:12
less
掌握Mosek矩阵运算，轻松应对优化挑战

本篇文章继续深入探讨Mosek学习笔记系列，特别是矩阵运算部分，这对于优化问题的解决至关重要。通过本文，您将了解到如何高效地使用Mosek进行矩阵初始化、线性代数运算及约束域的设定。 ... [详细]

蜡笔小新 2024-12-19 12:19:47
uri
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
string
XNA 3.0 游戏编程：从 XML 文件加载数据

本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件，并通过内容管道加载到游戏中。此外，还会涉及自定义类型读取器和写入器的实现。 ... [详细]

蜡笔小新 2024-12-27 11:39:44
string
深入理解Java泛型：JDK 5的新特性

本文详细介绍了Java泛型的概念及其在JDK 5中的应用，通过具体代码示例解释了泛型的引入、作用和优势。同时，探讨了泛型类、泛型方法和泛型接口的实现，并深入讲解了通配符的使用。 ... [详细]

蜡笔小新 2024-12-26 11:15:56
string
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
select
优化DB2数据库性能的关键策略

本文详细介绍了优化DB2数据库性能的多种方法，涵盖统计信息更新、缓冲池调整、日志缓冲区配置、应用程序堆大小设置、排序堆参数调整、代理程序管理、锁机制优化、活动应用程序限制、页清除程序配置、I/O服务器数量设定以及编入组提交数调整等方面。通过这些技术手段，可以显著提升数据库的运行效率和响应速度。 ... [详细]

蜡笔小新 2024-12-22 16:20:33
string
CentOS 6.8 上安装 Oracle 10.2.0.1 的常见问题及解决方案

本文记录了在 CentOS 6.8 系统上安装 Oracle 10.2.0.1 数据库时遇到的问题及解决方法，包括依赖库缺失、操作系统版本不兼容、用户权限不足等问题。 ... [详细]

蜡笔小新 2024-12-20 17:19:23
cmd
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
post
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
uri
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
string
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
uri
对MariaDB未来发展的思考与担忧

本文探讨了MariaDB在当前数据库市场中的地位和挑战，分析其可能面临的困境，并提出了对未来发展的几点看法。 ... [详细]

蜡笔小新 2024-12-25 18:20:32
string
开发笔记:由数据库某字段存数组引发的json_encode/serialize思考

开发笔记:由数据库某字段存数组引发的json_encode/serialize思考 ... [详细]

蜡笔小新 2024-12-20 09:41:14
ascii
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06

拍友2602923913

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章