当前位置: 开发笔记 > 编程语言 > 正文

rdd分片spark_Spark学习之路（十七）Spark分区

作者：依然2502927101 | 来源：互联网 | 2023-07-26 10:15

点击上方蓝字关注我们Spark学习之路(十七)Spark分区一、分区的概念分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，

点击上方蓝字关注我们

Spark学习之路 (十七)Spark分区

一、分区的概念

　　分区是RDD内部并行计算的一个计算单元&＃xff0c;RDD的数据集在逻辑上被划分为多个分片&＃xff0c;每一个分片称为分区&＃xff0c;分区的格式决定了并行计算的粒度&＃xff0c;而每个分区的数值计算都是在一个任务中进行的&＃xff0c;因此任务的个数&＃xff0c;也是由RDD(准确来说是作业最后一个RDD)的分区数决定。

二、为什么要进行分区

　　数据分区&＃xff0c;在分布式集群里&＃xff0c;网络通信的代价很大&＃xff0c;减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在io和网络传输&＃xff0c;io因为要大量读写文件&＃xff0c;它是不可避免的&＃xff0c;但是网络传输是可以避免的&＃xff0c;把大文件压缩变小文件&＃xff0c; 从而减少网络传输&＃xff0c;但是增加了cpu的计算负载。

　　Spark里面io也是不可避免的&＃xff0c;但是网络传输spark里面进行了优化&＃xff1a;

　　Spark把rdd进行分区(分片)&＃xff0c;放在集群上并行计算。同一个rdd分片100个&＃xff0c;10个节点&＃xff0c;平均一个节点10个分区&＃xff0c;当进行sum型的计算的时候&＃xff0c;先进行每个分区的sum&＃xff0c;然后把sum值shuffle传输到主程序进行全局sum&＃xff0c;所以进行sum型计算对网络传输非常小。但对于进行join型的计算的时候&＃xff0c;需要把数据本身进行shuffle&＃xff0c;网络开销很大。

spark是如何优化这个问题的呢&＃xff1f;

　　Spark把key&＃xff0d;value rdd通过key的hashcode进行分区&＃xff0c;而且保证相同的key存储在同一个节点上&＃xff0c;这样对改rdd进行key聚合时&＃xff0c;就不需要shuffle过程&＃xff0c;我们进行mapreduce计算的时候为什么要进行shuffle&＃xff1f;&＃xff0c;就是说mapreduce里面网络传输主要在shuffle阶段&＃xff0c;shuffle的根本原因是相同的key存在不同的节点上&＃xff0c;按key进行聚合的时候不得不进行shuffle。shuffle是非常影响网络的&＃xff0c;它要把所有的数据混在一起走网络&＃xff0c;然后它才能把相同的key走到一起。要进行shuffle是存储决定的。

　　Spark从这个教训中得到启发&＃xff0c;spark会把key进行分区&＃xff0c;也就是key的hashcode进行分区&＃xff0c;相同的key&＃xff0c;hashcode肯定是一样的&＃xff0c;所以它进行分区的时候100t的数据分成10分&＃xff0c;每部分10个t&＃xff0c;它能确保相同的key肯定在一个分区里面&＃xff0c;而且它能保证存储的时候相同的key能够存在同一个节点上。比如一个rdd分成了100份&＃xff0c;集群有10个节点&＃xff0c;所以每个节点存10份&＃xff0c;每一分称为每个分区&＃xff0c;spark能保证相同的key存在同一个节点上&＃xff0c;实际上相同的key存在同一个分区。

　　key的分布不均决定了有的分区大有的分区小。没法分区保证完全相等&＃xff0c;但它会保证在一个接近的范围。所以mapreduce里面做的某些工作里边&＃xff0c;spark就不需要shuffle了&＃xff0c;spark解决网络传输这块的根本原理就是这个。

　　进行join的时候是两个表&＃xff0c;不可能把两个表都分区好&＃xff0c;通常情况下是把用的频繁的大表事先进行分区&＃xff0c;小表进行关联它的时候小表进行shuffle过程。

　　大表不需要shuffle。　　

　　需要在工作节点间进行数据混洗的转换极大地受益于分区。这样的转换是 cogroup&＃xff0c;groupWith&＃xff0c;join&＃xff0c;leftOuterJoin&＃xff0c;rightOuterJoin&＃xff0c;groupByKey&＃xff0c;reduceByKey&＃xff0c;combineByKey 和lookup。

　　 分区是可配置的&＃xff0c;只要RDD是基于键值对的即可。

三、Spark分区原则及方法

RDD分区的一个分区原则&＃xff1a;尽可能是得分区的个数等于集群核心数目

无论是本地模式、Standalone模式、YARN模式或Mesos模式&＃xff0c;我们都可以通过spark.default.parallelism来配置其默认分区个数&＃xff0c;若没有设置该值&＃xff0c;则根据不同的集群环境确定该值

3.1　本地模式

(1)默认方式

以下这种默认方式就一个分区

结果

(2)手动设置

设置了几个分区就是几个分区

结果

(3)跟local[n] 有关

n等于几默认就是几个分区

如果n&＃61;* 那么分区个数就等于cpu core的个数

结果

本机电脑查看cpu core&＃xff0c;我的电脑--》右键管理--》设备管理器--》处理器

(4)参数控制

结果

3.2　YARN模式

进入defaultParallelism方法

继续进入defaultParallelism方法

这个一个trait&＃xff0c;其实现类是(Ctrl&＃43;h)

进入TaskSchedulerImpl类找到defaultParallelism方法

继续进入defaultParallelism方法&＃xff0c;又是一个trait&＃xff0c;看其实现类

Ctrl&＃43;h看SchedulerBackend类的实现类

进入CoarseGrainedSchedulerBackend找到defaultParallelism

totalCoreCount.get()是所有executor使用的core总数&＃xff0c;和2比较去较大值

如果正常的情况下&＃xff0c;那你设置了多少就是多少

四、分区器

(1)如果是从HDFS里面读取出来的数据&＃xff0c;不需要分区器。因为HDFS本来就分好区了。

　　分区数我们是可以控制的&＃xff0c;但是没必要有分区器。

(2)非key-value RDD分区&＃xff0c;没必要设置分区器

al testRDD &＃61; sc.textFile("C:\\Users\\Administrator\\IdeaProjects\\myspark\\src\\main\\hello.txt").flatMap(line &＃61;> line.split(",")).map(word &＃61;> (word, 1)).partitionBy(new HashPartitioner(2))

　　没必要设置&＃xff0c;但是非要设置也行。

(3)Key-value形式的时候&＃xff0c;我们就有必要了。

HashPartitioner

val resultRDD &＃61; testRDD.reduceByKey(new HashPartitioner(2),(x:Int,y:Int) &＃61;> x&＃43; y)//如果不设置默认也是HashPartitoiner&＃xff0c;分区数跟spark.default.parallelism一样println(resultRDD.partitioner) println("resultRDD"&＃43;resultRDD.getNumPartitions)

RangePartitioner

val resultRDD &＃61; testRDD.reduceByKey((x:Int,y:Int) &＃61;> x&＃43; y) val newresultRDD&＃61;resultRDD.partitionBy(new RangePartitioner[String,Int](3,resultRDD)) println(newresultRDD.partitioner) println("newresultRDD"&＃43;newresultRDD.getNumPartitions)

注&＃xff1a;按照范围进行分区的&＃xff0c;如果是字符串&＃xff0c;那么就按字典顺序的范围划分。如果是数字&＃xff0c;就按数据自的范围划分。

自定义分区

需要实现2个方法

class MyPartitoiner(val numParts:Int) extends Partitioner{ override def numPartitions: Int &＃61; numParts override def getPartition(key: Any): Int &＃61; {val domain &＃61; new URL(key.toString).getHostval code &＃61; (domain.hashCode % numParts) if (code <0) {code &＃43; numParts} else {code}} }object DomainNamePartitioner {def main(args: Array[String]): Unit &＃61; {val conf &＃61; new SparkConf().setAppName("word count").setMaster("local")val sc &＃61; new SparkContext(conf)val urlRDD &＃61; sc.makeRDD(Seq(("http://baidu.com/test", 2),("http://baidu.com/index", 2), ("http://ali.com", 3), ("http://baidu.com/tmmmm", 4),("http://baidu.com/test", 4))) //Array[Array[(String, Int)]] // &＃61; Array(Array(), // Array((http://baidu.com/index,2), (http://baidu.com/tmmmm,4), // (http://baidu.com/test,4), (http://baidu.com/test,2), (http://ali.com,3)))val hashPartitionedRDD &＃61; urlRDD.partitionBy(new HashPartitioner(2))hashPartitionedRDD.glom().collect() //使用spark-shell --jar的方式将这个partitioner所在的jar包引进去&＃xff0c;然后测试下面的代码 // spark-shell --master spark://master:7077 --jars spark-rdd-1.0-SNAPSHOT.jarval partitionedRDD &＃61; urlRDD.partitionBy(new MyPartitoiner(2))val array &＃61; partitionedRDD.glom().collect()} }

推荐阅读

io
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
java
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
io
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
web
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
java
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
config
com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例

com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-12 14:33:17
java
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
web
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
config
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
function
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
const
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
java
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
web
开发中遇到的一些常见问题及解决方案

本文总结了一些开发中常见的问题及其解决方案，包括特性过滤器的使用、NuGet程序集版本冲突、线程存储、溢出检查、ThreadPool的最大线程数设置、Redis使用中的问题以及Task.Result和Task.GetAwaiter().GetResult()的区别。 ... [详细]

蜡笔小新 2024-11-12 08:20:05
web
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51
java
深入解析Properties属性类及其应用

属性类 `Properties` 是 `Hashtable` 类的子类，用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入，支持字符串类型的键和值。通过 `Properties` 类，开发者可以方便地进行配置信息的管理，确保应用程序的灵活性和可维护性。此外，`Properties` 类还提供了加载和保存属性文件的方法，使其在实际开发中具有较高的实用价值。 ... [详细]

蜡笔小新 2024-11-11 13:55:43