当前位置: 开发笔记 > 编程语言 > 正文

spark直接将日志写入指定文件实例_7个实例全面掌握SparkMapReduce（上篇）

作者：mobiledu2502906891 | 来源：互联网 | 2023-07-26 11:41

本文是在学习“7个实例全面掌握HadoopMapReduce”这篇文章后，用Spark重新实现了里面的例子，希望对初学Spark的童学有帮助࿰

本文是在学习 “7个实例全面掌握Hadoop MapReduce” 这篇文章后&＃xff0c;用Spark重新实现了里面的例子&＃xff0c;希望对初学Spark的童学有帮助&＃xff0c;欢迎大牛们留言提意见。

上篇包含4个实例&＃xff1a;

1&＃xff1a;自定义对象序列化
2&＃xff1a;自定义分区
3&＃xff1a;计算出每组订单中金额最大的记录
4&＃xff1a;合并多个小文件

下篇包含3个实例&＃xff1a;

5&＃xff1a;分组输出到多个文件
6&＃xff1a;join操作
7&＃xff1a;计算出用户间的共同好友

实例1&＃xff1a;自定义对象序列化

1&＃xff09;需求

需要统计手机用户流量日志&＃xff0c;日志内容实例&＃xff1a;

要把同一个用户的上行流量、下行流量进行累加&＃xff0c;并计算出综合。

例如上面的13897230503有两条记录&＃xff0c;就要对这两条记录进行累加&＃xff0c;计算总和&＃xff0c;得到&＃xff1a;

13897230503&＃xff0c;500&＃xff0c;1600&＃xff0c;2100

2&＃xff09;代码实践

package mapReduceimport org.apache.spark.sql.{Dataset, SparkSession}object FlowCount {def main(args: Array[String]): Unit &＃61; {val spark &＃61; SparkSession.builder().appName("FlowCount").master("local[1]").getOrCreate()import spark.implicits._import org.apache.spark.sql.functions._// Optional, help avoid errors due to long lineagespark.sparkContext.setLogLevel("WARN")spark.sparkContext.setCheckpointDir("hdfs://127.0.0.1:9090/tmp/")val base &＃61; "hdfs://127.0.0.1:9090/user/ds/"val lines &＃61; spark.read.textFile(base &＃43; "flowcount.txt")/* 生成DataSet */val flowData &＃61; lines.map(preparation).toDF("phone", "upFlow", "dFlow", "sumFlow")flowData.show(5)/* 以手机号为key&＃xff0c;对数值求和 */val sumData &＃61; flowData.groupBy("phone").agg(sum("upFlow"),sum("dFlow"), sum("sumFlow"))sumData.show(5)spark.stop()}def preparation(str: String): FlowBean &＃61; {//切分字段val fields &＃61; str.split(" ")//assert(fields.size &＃61;&＃61; 4)//组装对象var phone &＃61; fields(0).toString.trimvar upFlow &＃61; fields(1).toLongvar dFlow &＃61; fields(2).toLongFlowBean(phone, upFlow, dFlow, upFlow &＃43; dFlow)}}/** phone:手机号,* upFlow:上行流量, dFlow:下行流量, sumFlow:流量合计*/ case class FlowBean(phone:String, upFlow:Long, dFlow:Long, sumFlow:Long)

3&＃xff09;运行结果

实例2&＃xff1a;自定义分区

1&＃xff09;需求

还是以上个例子的手机用户流量日志为例&＃xff0c;

在上个例子的统计需要基础上添加一个新需求&＃xff1a;按省份统计&＃xff0c;不同省份的手机号放到不同的文件里。

例如137表示属于河北&＃xff0c;138属于河南&＃xff0c;那么在结果输出时&＃xff0c;他们分别在不同的文件中。

2&＃xff09;代码实践

package mapReduceimport org.apache.spark.sql.{Dataset, SparkSession}object FlowPartitioner {def main(args: Array[String]): Unit &＃61; {val spark &＃61; SparkSession.builder().appName("FlowCount").master("local[1]").getOrCreate()import spark.implicits._import org.apache.spark.sql.functions._// Optional, help avoid errors due to long lineagespark.sparkContext.setLogLevel("WARN")spark.sparkContext.setCheckpointDir("hdfs://127.0.0.1:9090/tmp/")val base &＃61; "hdfs://127.0.0.1:9090/user/ds/"val lines &＃61; spark.read.textFile(base &＃43; "flowcount.txt")/* 指定数据分区器 */val lineData &＃61; lines.map(line &＃61;> (line.split(" ")(0), line)).rdd.partitionBy(new ProvincePartitioner(3))/* 生成DataSet, 持久化避免重复混洗 */val flowData &＃61; lineData.values.map(preparation).toDF("phone", "upFlow", "dFlow", "sumFlow").persist()flowData.show(5)spark.stop()}def preparation(str: String): FlowBean02 &＃61; {//切分字段val fields &＃61; str.split(" ")//assert(fields.size &＃61;&＃61; 4)//组装对象var phone &＃61; fields(0).toString.trimvar upFlow &＃61; fields(1).toLongvar dFlow &＃61; fields(2).toLongFlowBean02(phone, upFlow, dFlow, upFlow &＃43; dFlow)}}/** phone:手机号,* upFlow:上行流量, dFlow:下行流量, sumFlow:流量合计*/ case class FlowBean02(phone:String, upFlow:Long, dFlow:Long, sumFlow:Long)import org.apache.spark.Partitioner/** 自定义partitioner* 根据手机号前缀分区*/ class ProvincePartitioner(val num: Int) extends Partitioner {override def numPartitions: Int &＃61; numoverride def getPartition(key: Any): Int &＃61; {//手机号前3位val prefix &＃61; key.toString().substring(0, 3)//用分区个数取模prefix.toInt % num} }

3&＃xff09;运行结果

实例3&＃xff1a;计算出每组订单中金额最大的记录

1&＃xff09;需求

有如下订单数据&＃xff1a;

求出每一个订单中成交金额最大的一笔交易。

2&＃xff09;代码实践

package mapReduceimport mapReduce.FlowPartitioner.preparation import org.apache.spark.sql.SparkSessionobject GroupSort {def main(args: Array[String]): Unit &＃61; {val spark &＃61; SparkSession.builder().appName("FlowCount").master("local[1]").getOrCreate()import spark.implicits._import org.apache.spark.sql.functions._// Optional, help avoid errors due to long lineagespark.sparkContext.setLogLevel("WARN")spark.sparkContext.setCheckpointDir("hdfs://127.0.0.1:9090/tmp/")val base &＃61; "hdfs://127.0.0.1:9090/user/ds/"val lines &＃61; spark.read.textFile(base &＃43; "groupsort.txt")/* 默认分区器是hashcode */val lineData &＃61; lines.map(preparation).repartition(3).toDF("itemid", "goodsid", "amount")val sortData &＃61; lineData.sortWithinPartitions("itemid", "amount")sortData.show(10)/* 取出金额最大的订单 */val maxData &＃61; sortData.groupBy("itemid").agg(max("amount")).sort($"itemid".asc)maxData.show(10)spark.stop()}def preparation(str: String): ItemBean &＃61; {//切分字段val fields &＃61; str.split(" ")//assert(fields.size &＃61;&＃61; 4)//组装对象var itemid &＃61; fields(0).toString.trimvar goodsid &＃61; fields(1).toString.trimvar amount &＃61; fields(2).toDoubleItemBean(itemid, goodsid, amount)}}case class ItemBean(itemid:String, goodsid:String, amount:Double)

3&＃xff09;运行结果

实例4&＃xff1a;合并多个小文件

1&＃xff09;需求

目标文件中有大量的小文件&＃xff0c;会造成分配任务和资源的开销比实际的计算开销还打&＃xff0c;这就产生了效率损耗。

需要先把一些小文件合并成一个大文件。

2&＃xff09;代码实践

package mapReduceimport org.apache.spark.sql.SparkSessionobject ManyToOne {def main(args: Array[String]): Unit &＃61; {val spark &＃61; SparkSession.builder().appName("FlowCount").master("local[1]").getOrCreate()// Optional, help avoid errors due to long lineagespark.sparkContext.setLogLevel("WARN")spark.sparkContext.setCheckpointDir("hdfs://127.0.0.1:9090/tmp/")/* 1.可以将path里的所有文件内容读出 *///spark.read.textFile(path)/* 2.指定文件列表 */val base &＃61; "hdfs://127.0.0.1:9090/user/ds/"val fileList &＃61; Array(base &＃43; "groupsort.txt", base &＃43; "flowcount.txt")/* union 连接 */val fileRDD &＃61; fileList.map(spark.read.textFile(_))val lineData &＃61; fileRDD.reduce((x,y)&＃61;> x.union(y))lineData.show(20)spark.stop()}}

3&＃xff09;运行结果

如果数据很大&＃xff0c;难以在单机内存上装下&＃xff0c;以上操作可能会造成单机内存不足。

转自 "如何使saveAsTextFile只生成一个文件"

在RDD上调用 coalesce(1,true).saveAsTextFile()&＃xff0c;

或者&＃xff0c;可以调用 repartition(1)&＃xff0c;它其实是coalesce的一个包装&＃xff0c;默认第二个参数为true。

但代价是巨大的&＃xff0c;因为Spark面对的是大量的数据&＃xff0c;并且是并行执行的&＃xff0c;如果强行要求最后只有一个分区&＃xff0c;必然导致大量的磁盘IO和网络IO产生。

安全的做法&＃xff0c;可以采用HDFS磁盘合并操作&＃xff1a;

hadoop fs -cat /hdfs/result/part-* > /data/test.log

或

hadoop fs -getmerge /hdfs/result /data/test.log

推荐阅读

io
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
io
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
io
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
io
MapReduce统计每个用户的使用总流量

1、原始数据2、使用java程序1）新建项目2）导包　　hadoop-2.7.3\share\hadoop\mapreducehsfs的那些包commo ... [详细]

蜡笔小新 2024-09-25 16:08:41
io
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
io
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
io
解决sbt构建过程中遇到的“对象apache非org软件包”错误

在使用sbt构建项目时，遇到了“对象apache不是org软件包的成员”的错误。本文详细分析了该问题的原因，并提供了有效的解决方案，包括检查依赖配置、清理缓存和更新sbt插件等步骤，帮助开发者快速解决问题。 ... [详细]

蜡笔小新 2024-10-29 16:21:59
io
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
request
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
request
Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析

Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]

蜡笔小新 2024-11-08 11:32:58
io
深入掌握Scala面向对象编程与Spark源码解析

在第二课中，我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先，通过详细的实战案例，全面解析Scala中的类和对象。作为一门纯面向对象的语言，Scala的类设计和对象使用是理解其面向对象特性的关键。此外，我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能，还能为后续的高级应用开发打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-03 14:51:55
io
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
python
如何在 PySP 中使用 Python 将数据框中的字符串列转换为双精度浮点类型

这里不需要UDF。Column已提供simpleString方法和simpleString实例：frompyspark.sql.typesimportDoubleTy ... [详细]

蜡笔小新 2024-10-22 17:47:46
io
org.apache.hadoop.mapreduce.lib.input.MultipleInputs.addInputPath()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.mapreduce.lib.input.MultipleInputs.addInputPath()方法的一些代码 ... [详细]

蜡笔小新 2024-09-28 10:57:44

mobiledu2502906891

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章