Spark高速入门指南(QuickStartSpark)

作者：闹剧-豆腐渣_141 | 来源：互联网 | 2023-09-15 12:00

作者:过往记忆 | 新浪微博&＃xff1a;左手牵右手TEL |
能够转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
博客地址&＃xff1a;http://www.iteblog.com/
文章标题&＃xff1a;《Spark高速入门指南(Quick Start Spark)》
本文链接&＃xff1a;http://www.iteblog.com/archives/1040
Hadoop、Hive、Hbase、Flume等QQ交流群&＃xff1a;138615359&＃xff08;已满&＃xff09;&＃xff0c;请增加新群&＃xff1a;149892483
本博客的微信公共帐号为&＃xff1a;iteblog_hadoop。欢迎大家关注。
假设你认为本文对你有帮助&＃xff0c;最好还是分享一次&＃xff0c;你的每次支持。都是对我最大的鼓舞

欢迎关注微信公共帐号

　　这个文档仅仅是简单的介绍怎样高速地使用Spark。

在以下的介绍中我将介绍怎样通过Spark的交互式shell来使用API。

Basics

　　Spark shell提供一种简单的方式来学习它的API&＃xff0c;同一时候也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。能够通过以下方式进入到Spark shell中。

1# 本文原文地址&＃xff1a;http://www.iteblog.com/archives/1040
2# 过往记忆。大量关于Hadoop、Spark等个人原创技术博客
3 
4./bin/spark-shell

　　Spark的一个基本抽象概念就是RDD。RDDs能够通过Hadoop InputFormats或者通过其它的RDDs通过transforming来得到。

以下的样例是通过载入SPARK_HOME文件夹下的README文件来构建一个新的RDD

1scala> textFilval textFile &＃61; sc.textFile("file:///spark-bin-0.9.1/README.md")
2textFile:org.apache.spark.rdd.RDD[String]&＃61;MappedRDD[3]at textFile at :1

　　RDDs提供actions操作。通过它能够返回值。同一时候还提供 transformations操作&＃xff0c;通过它能够返回一个新的RDD的引用。例如以下&＃xff1a;

1scala> textFile.count() // Number of items in this RDD
2res1: Long &＃61; 108
3 
4scala> textFile.first() // First item in this RDD
5res2: String &＃61; # Apache Spark

我们再试试transformations操作&＃xff0c;以下的样例中我们通过使用filter transformation来一个新的RDD&＃xff1a;

1scala> val linesWithSpark &＃61; textFile.filter(line &＃61;> line.contains("Spark"))
2linesWithSpark: org.apache.spark.rdd.RDD[String] &＃61; FilteredRDD[4] at 
3filter at :14

我们将transformations操作和actions操作连起来操作&＃xff1a;

1scala> textFile.filter(line &＃61;> line.contains("Spark")).count()
2res3: Long &＃61; 15

很多其它关于RDD上面的操作

　　RDD的transformations操作和actions操作能够用于更复杂的计算。以下的样例是找出README.md文件里单词数最多的行有多少个单词

1scala> var size &＃61; textFile.map(line&＃61;>line.split(" ").size)
2scala> size.reduce((a, b)&＃61;>if (a > b) a else b)
3res4: Long &＃61; 15

map函数负责将line依照空格切割&＃xff0c;并得到这行单词的数量&＃xff0c;而reduce函数将获取文件里单词数最多的行有多少个单词。map和reduce函数的參数是Scala的函数式编程风格。我们能够直接用Java里面的Math.max()函数&＃xff0c;这样会使得这段代码更好理解

1scala> import java.lang.Math
2import java.lang.Math
3 
4scala> textFile.map(line &＃61;> line.split(" ").size).reduce((a, b)&＃61;>Math.max(a, b))
5res10: Int &＃61; 15

我们比較熟悉的一种数据流模式是MapReduce。Spark能够非常easy地实现MapReduce流

1scala> val wordCounts &＃61; textFile.flatMap(line &＃61;> line.split(" "))
2    .map(word &＃61;> (word, 1)).reduceByKey((a, b) &＃61;> a &＃43; b)
3wordCounts: org.apache.spark.rdd.RDD[(String, Int)] &＃61; 
4MapPartitionsRDD[16] at reduceByKey at :15

在上面的代码中&＃xff0c;我们结合了flatMap&＃xff0c;map和reduceByKey等transformations 操作来计算文件里每一个单词的数量。并生成一个(String, Int) pairs形式的RDD。为了计算单词的数量。我们能够用collect action来实现&＃xff1a;

01scala> wordCounts.collect()
02res11: Array[(String, Int)]&＃61;Array(("",120),(submitting,1),(find,1),(versions,4), 
03((&＃96;./bin/pyspark&＃96;).,1), (Regression,1), (via,2), (tests,2), (open,2), 
04(./bin/spark-shell,1), (When,1), (All,1), (download,1), (requires,2), 
05(SPARK_YARN&＃61;true,3), (Testing,1), (take,1), (project,4), (no,1), 
06(systems.,1), (file,1), (&＃96;.,1), (Or,,1), (&＃96;&＃96;,1), 
07(About,1), (project&＃39;s,3), (&＃96;&＃96;,1), (programs,2),(given.,1),(obtained,1), 
08(sbt/sbt,5), (artifact,1), (SBT,1), (local[2],1), (not,1), (runs.,1), (you,5), 
09(building,1), (Along,1), (Lightning-Fast,1), (built,,1), (Hadoop,,1), (use,2), 
10(MRv2,,1), (it,2), (directory.,1), (overview,1), (2.10.,1),(The,1),(easiest,1), 
11(Note,1), (guide](http://spark.apache.org/docs/latest/configuration.html),1), 
12(setup,1), ("org.apache.hadoop",1),...

Caching

　　Spark能够将数据集存放在集群中的缓存中。这个在数据集常常被訪问的场景下非常实用。比方hot数据集的查询&＃xff0c;或者像PageRank这种须要迭代非常多次的算法。作为一个简单的列子。以下是将我们自己的linesWithSpark dataset存入到缓存中&＃xff1a;

1scala> linesWithSpark.cache()
2res12: org.apache.spark.rdd.RDD[String] &＃61;FilteredRDD[4] at filter at :14
3 
4scala> linesWithSpark.count()
5res13: Long &＃61; 15
6 
7scala> linesWithSpark.count()
8res14: Long &＃61; 15

　　利用Spark来缓存100行的数据看起来有点傻&＃xff0c;可是我们能够通过相同的函数来存储非常大的数据集&＃xff0c;甚至这些数据集分布在几十或者几百台节点上。
　　本文翻译自Spark中的文档&＃xff0c;本文地址&＃xff1a;《Spark高速入门指南(Quick Start Spark)》&＃xff1a;http://www.iteblog.com/archives/1040&＃xff0c;过往记忆&＃xff0c;大量关于Hadoop、Spark等个人原创技术博客本博客文章除特别声明&＃xff0c;所有都是原创&＃xff01;

尊重原创。转载请注明&＃xff1a; 转载自过往记忆&＃xff08;http://www.iteblog.com/&＃xff09;
本文链接地址: 《Spark高速入门指南(Quick Start Spark)》&＃xff08;http://www.iteblog.com/archives/1040&＃xff09;
E-mail:wyphao.2007&＃64;163.com

转:https://www.cnblogs.com/ldxsuanfa/p/10704186.html

推荐阅读

go
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
io
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
install
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
char
Phoenix 使用体验分享与深度解析

闲来无事看了下hbase方面的东西，发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作：启动hadoop集群启动zookkeeper启动hba ... [详细]

蜡笔小新 2024-10-22 14:57:42
io
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
io
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
io
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
email
Django Admin 管理后台使用指南

本文详细介绍了如何在 Django 项目中使用 Admin 管理后台，包括创建超级用户、启动项目、管理数据模型和修改用户密码等步骤。 ... [详细]

蜡笔小新 2024-11-12 13:27:04
go
精选Linux经典著作在数字图书馆展出

数字图书馆近期展出了一批精选的Linux经典著作，这些书籍虽然部分较为陈旧，但依然具有重要的参考价值。如需转载相关内容，请务必注明来源：小文论坛（http://www.xiaowenbbs.com）。 ... [详细]

蜡笔小新 2024-11-08 10:55:29
install
CLIfe：我的高效开发环境配置

在开发过程中，我最初也依赖于功能全面但操作繁琐的集成开发环境（IDE），如Borland Delphi 和 Microsoft Visual Studio。然而，随着对高效开发的追求，我逐渐转向了更加轻量级和灵活的工具组合。通过 CLIfe，我构建了一个高度定制化的开发环境，不仅提高了代码编写效率，还简化了项目管理流程。这一配置结合了多种强大的命令行工具和插件，使我在日常开发中能够更加得心应手。 ... [详细]

蜡笔小新 2024-11-07 18:32:20
range
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
range
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
go
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
io
优化后的标题：利用Hive分析用户最长连续登录天数

本文介绍了如何使用Hive分析用户最长连续登录天数的方法。首先对数据进行排序，然后计算相邻日期之间的差值，接着按用户ID分组并累加连续登录天数，最后求出每个用户的最大连续登录天数。此外，还探讨了该方法在其他领域的应用，如股票市场中最大连续涨停天数的分析。 ... [详细]

蜡笔小新 2024-10-27 21:47:17
install
Apache Drill

2019独角兽企业重金招聘Python工程师标准WhyDrillTop10ReasonstoUseDrill1.GetstartedinminutesIttakesacoup ... [详细]

蜡笔小新 2024-10-16 23:12:24

闹剧-豆腐渣_141

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章