当前位置: 开发笔记 > 编程语言 > 正文

Spark认识环境搭建运行第一个Spark程序

作者：大伟 | 来源：互联网 | 2023-08-29 14:59

摘要：Spark作为新一代大数据计算引擎，因为内存计算的特性，具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spa

摘要&＃xff1a;Spark作为新一代大数据计算引擎&＃xff0c;因为内存计算的特性&＃xff0c;具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spark安装、Spark开发环境搭建及编写第一个scala程序、运行第一个Spark程序。

1.Spark是什么

Spark是一个快速且通用的集群计算平台

2.Spark的特点

1&＃xff09;Spark是快速的

Spark扩充了流行的Mapreduce计算模型

Spark是基于内存的计算

2&＃xff09;Spark是通用的

Spark的设计容纳了其它分布式系统拥有的功能

批处理&＃xff0c;迭代式计算&＃xff0c;交互查询和流处理等

3&＃xff09;Spark是高度开放的

Spark提供了Python,Java,Scala,SQL的API和丰富的内置库。

Spark和其它的大数据工具整合的很好&＃xff0c;包括hadoop,kafka等

3.Spark的组件

Spark包括多个紧密集成的组件

Spark Core:

　　包含Spark的基本功能&＃xff0c;包含任务调度&＃xff0c;内存管理&＃xff0c;容错机制等

　　内部定义了RDDs(弹性分布式数据集)

　　提供了很多APIs来创建和操作这些RDDs

　　应用场景&＃xff0c;为其他组件提供底层的服务

Spark SQL:

　　是Spark处理结构化数据的库&＃xff0c;就像Hive SQL,Mysql一样

　　应用场景&＃xff0c;企业中用来做报表统计

Spark Streaming:

　　是实时数据流处理组件&＃xff0c;类似Storm

　　Spark Streaming提供了API来操作实时流数据

　　应用场景&＃xff0c;企业中用来从Kafka接收数据做实时统计

MLlib:

一个包含通用机器学习功能的包&＃xff0c;Machine learning lib

包含分类&＃xff0c;聚类&＃xff0c;回归等&＃xff0c;还包括模型评估和数据导入。

　　MLlib提供的上面这些方法&＃xff0c;都支持集群上的横向扩展。

　　应用场景&＃xff0c;机器学习。

Graphx:

　　是处理图的库&＃xff08;例如&＃xff0c;社交网络图&＃xff09;&＃xff0c;并进行图的并行计算。

　　像Spark Streaming,Spark SQL一样&＃xff0c;它也继承了RDD API。

　　它提供了各种图的操作&＃xff0c;和常用的图算法&＃xff0c;例如PangeRank算法。

　　应用场景&＃xff0c;图计算。

Cluster Managers:

　　就是集群管理&＃xff0c;Spark自带一个集群管理是单独调度器。

　　常见集群管理包括Hadoop YARN,Apache Mesos

4.紧密集成的优点

　　Spark底层优化了&＃xff0c;基于Spark底层的组件也得到了相应的优化。

　　紧密集成&＃xff0c;节省了各个组件组合使用时的部署、测试等时间。

　　向Spark增加新的组件时&＃xff0c;其它组件&＃xff0c;可立刻享用新组件的功能。

5.Spark与Hadoop的比较

　　Hadoop应用场景&＃xff1a;离线处理、对时效性要求不高

　　Spark应用场景&＃xff1a;时效性要求高的场景、机器学习等领域

　　Doug Cutting的观点&＃xff1a;这是生态系统&＃xff0c;每个组件都有其作用&＃xff0c;各善其职即可。Spark不具有HDFS的存储能力&＃xff0c;要借助HDFS等持久化数据。大数据将会孕育出更多的新技术。

6.Spark运行环境

　　Spark是Scala写的&＃xff0c;运行在JVM上&＃xff0c;所以运行环境Java7&＃43;

　　如果使用Python API,需要安装Python2.6&＃43;或者Python3.4&＃43;

　　版本对应&＃xff1a;Spark1.6.2 - Scala2.10 Spark2.0.0 - Scala2.11

7.Spark安装

　　Spark下载地址&＃xff1a;http://spark.apache.org/downloads.html 注&＃xff1a;搭Spark不需要Hadoop,如有hadoop集群&＃xff0c;可下载相应的版本。

　　这里安装在CentOS6.5虚拟机上&＃xff0c;将下载好的文件上传虚拟机&＃xff0c;并执行解压&＃xff1a;tar -zxvf spark-2.0.1-bin-hadoop2.6.tgz

　　Spark目录&＃xff1a;

　　　　bin包含用来和Spark交互的可执行文件&＃xff0c;如Spark shell。

　　　　examples包含一些单机Spark job,可以研究和运行这些例子。

　　Spark的Shell:

　　　　Spark的shell能够处理分布在集群上的数据。

　　　　Spark把数据加载到节点的内存中&＃xff0c;因此分布式处理可在秒级完成。

　　　　快速使用迭代式计算&＃xff0c;实时查询、分析一般能够在shells中完成。

　　　　Spark提供了Python shells和Scala shells。

　　这里以Scala shell为例&＃xff0c;演示读取本地文件并进行操作&＃xff1a;

　　　　进入Scala shell:./spark-shell

　　　　创建测试文件helloSpark并输入内容&＃xff1a;

　　　　输入val lines&＃61;sc.textFile("/home/lucy/hellospark") 加载文件内容&＃xff0c;输入lines.count()进行统计行数&＃xff1a; &＃xff08; 注&＃xff1a;sc为spark content&＃xff09;

　　ssh的配置&＃xff1a;&＃xff08;ssh localhost需要输入密码&＃xff0c;这在运行spark程序时是不可以的&＃xff09;

　　　　ssh-keygen &＃xff08;生成秘钥&＃xff09;

　　　　.ssh目录下cat xxx_rsa.pub> authorized_keys

　　　　chmod 600 authorized_keys

8.Spark开发环境搭建

　　Scala 下载地址: http://www.scala-lang.org/download/2.11.6.html 注&＃xff1a;默认安装选项会自动配置环境变量,安装路径不能有空格。

　　IntelliJ IDEA 下载地址&＃xff1a;https://www.jetbrains.com/idea/

　　注册码地址&＃xff1a;http://idea.lanyus.com

　　由于这里下载的ideaIU-15.0.2.exe&＃xff0c;已经包含有Scala插件&＃xff0c;如果不包含需要下载。查看是否已有scala插件可以新建项目&＃xff0c;打开Files->settings选择Plugins,输入scala查看&＃xff1a;

9.编写第一个Scala程序

　　依次点击File->New->Project&＃xff0c;选择Scala->SBT&＃xff0c;下一步&＃xff0c;打开如下窗口&＃xff1a;

　　这里Scala选择为2.11.6&＃xff0c;创建完成后会进行初始化操作&＃xff0c;自动下载jar包等。下载时常看具体网络情况。待所有进度条完成后&＃xff0c;项目目录已经出来了&＃xff0c;如下&＃xff1a;

　　编辑build.sbt:

　　name :&＃61; "LearnSpark"

　　version :&＃61; "1.0"

　　scalaVersion :&＃61; "2.11.1"

　　libraryDependencies &＃43;&＃61; "org.apache.spark" % "spark-core_2.11" % "2.0.2"

　　编辑完成后&＃xff0c;点击刷新&＃xff0c;后台自动下载对应的依赖&＃xff1a;

　　src->scala右击新建scala类WordCount

import org.apache.spark.{SparkContext, SparkConf}
/*** Created by Lucy on 2017/7/4.*/
object WordCount {def main(args: Array[String]) {val conf&＃61;new SparkConf().setAppName("wordcount")val sc&＃61;new SparkContext(conf)val input&＃61;sc.textFile("/home/lucy/helloSpark")val lines&＃61;input.flatMap(line&＃61;>line.split(" "))val count&＃61;lines.map(word&＃61;>(word,1)).reduceByKey{case (x,y)&＃61;>x&＃43;y}val output&＃61;count.saveAsTextFile("/home/lucy/hellosparkRes")}
}

　　代码编写完成后&＃xff0c;进行打包&＃xff08;配置jar包&＃xff0c;build&＃xff09;:

　　配置jar包&＃xff1a;File->Project Structure&＃xff0c;选择Artifacts&＃xff0c;点击&＃43;号&＃xff1a;

　　这里不打包依赖。配置jar包完成后&＃xff0c;Build->Build Artifacts,等待build完成。

10.运行第一个Spark程序

　　这里需要先启动集群&＃xff1a;

　　启动master: ./sbin/start-master.sh

　　启动worker: ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

　　　　　　　　这里的地址为&＃xff1a;启动master后,在浏览器输入localhost:8080,查看到的master地址

　　启动成功后&＃xff0c;jps查看进程&＃xff1a;

　　接下来执行提交命令&＃xff0c;将打好的jar包上传到linux目录&＃xff0c;jar包在项目目录下的out\artifacts下。

　　提交作业&＃xff1a; ./bin/spark-submit --master spark://localhost:7077 --class WordCount /home/lucy/learnspark.jar

　　可以在4040端口查看job进度&＃xff1a;

　　查看结果&＃xff1a;

　　由于按照空格分割字符串&＃xff0c;所以这里将Spark! 视为一个单词。至此&＃xff0c;任务运行结束&＃xff01;

鉴于写作能力有限&＃xff0c;若有描述不当或明显错误的&＃xff0c;欢迎指正&＃xff01;

转:https://www.cnblogs.com/williamjie/p/9317565.html

推荐阅读

java
FileBeat + Flume + Kafka + HDFS + Neo4j + SparkStreaming + MySQL：【案例】三度关系推荐V1.0版本11：每周一计算最近一月主播视频评级

一、数据计算步骤汇总下面我们通过文字梳理一下具体的数据计算步骤。第一步：历史粉丝关注数据初始化第二步：实时维护粉丝关注数据第三步：每天定 ... [详细]

蜡笔小新 2024-10-17 15:50:44
stream
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
stream
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
java
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
stream
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
shell
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
java
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
function
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
function
上海市地理位置解析：纬度详细分析

9月10日，ShanghaiApacheSparkMeetup聚会在上海通茂大酒店成功举办。本次活动邀请到运营商和高校讲师来分享经验，主题覆盖了从Spark研发到应用的各种不同视角 ... [详细]

蜡笔小新 2024-10-22 20:30:31
java
启动activemq_「Java」SpringBoot amp; ActiveMQ

一、消息队列消息队列中间件是分布式系统中重要的组件，主要解决应用耦合、异步消息、流量削锋等问题，实现高性能、高可用、可伸缩和最终一致性架构， ... [详细]

蜡笔小新 2024-10-14 22:01:53
java
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
ip
Twitter架构深度解析与学习心得

作为140字符的开创者，Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播，甚至在多次全球性事件中超越传统媒体的速度。然而，为了支持2亿用户的高效使用，其背后的技术架构和系统设计则极为复杂，涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]

蜡笔小新 2024-10-31 17:58:20
format
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
js
六个关键步骤掌握Python数据分析，探索六款小众但强大的数据处理库

Python 数据分析领域不仅拥有高质量的开发环境，还提供了众多功能强大的第三方库。本文将介绍六个关键步骤，帮助读者掌握 Python 数据分析的核心技能，并深入探讨六款虽不广为人知但却极具潜力的数据处理库，如 Pandas 的替代品和新兴的可视化工具，助力数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-10-29 11:26:54
js
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15

大伟

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章