spark分区和分区【PartitioningPartition】的理解

作者：小白菜 | 来源：互联网 | 2023-09-24 14:21

1.理解spark分区【Partitioning】1.1.分区概念及分区方法Spark分区是一种将数据分割到多个分区的方法，这样您就可以并行地在多个分区上执行转换

1. 理解spark 分区【Partitioning】

1.1. 分区概念及分区方法

Spark分区是一种将数据分割到多个分区的方法&＃xff0c;这样您就可以并行地在多个分区上执行转换&＃xff0c;从而更快地完成作业。还可以将已分区的数据写入文件系统(多个子目录)&＃xff0c;以便下游系统更快地读取数据。

Spark有几种分区方法来实现并行性&＃xff0c;可以根据需要选择使用哪种分区方法。

PARTITIONING METHODS (SCALA)	说明	提供类
repartition(numPartitions: Int)	Uses RoundRobinPartitioning	DataFrame
repartition(partitionExprs: Column*)	Uses HashPartitioner	DataFrame
repartition(numPartitions: Int, partitionExprs: Column*)	partition &＃61; hash(partitionExprs) % numPartitions	DataFrame
coalesce(numPartitions: Int)	Use only to reduce the number of partitions.	DataFrame
repartitionByRange(partitionExprs : Column*)	Uses rangepartitioning. Ideal to use on numeric columns.	DataFrame
repartitionByRange(numPartitions: Int, partitionExprs: Column*)		DataFrame
partitionBy(colNames: String*)	Use to write the data into sub-folder	DataFrameWriter

默认情况下&＃xff0c;Spark创建的分区与机器的CPU核数相等。
每个分区的数据都驻留在一台机器上。
Spark为每个分区创建一个任务。
Spark Shuffle将数据从一个分区转移到其他分区。
分区是一个昂贵的操作&＃xff0c;因为它会造成数据转移(数据可能在节点之间移动)
默认情况下&＃xff0c;DataFrame shuffle操作创建200个分区。

Spark支持内存分区(RDD/DataFrame)和磁盘分区(文件系统)。

内存分区: 可以通过调用repartition()或coalesce()转换对DataFrame进行分区或重新分区。

磁盘分区:在将Spark DataFrame写回磁盘时&＃xff0c;可以通过使用DataFrameWriter的partitionBy()来选择如何基于列对数据进行分区, 这类似于hive分区。

1.2. 分区的优点

正如您所知道的那样&＃xff0c;Spark的设计是为了以比传统处理快100倍的速度处理大型数据集&＃xff0c;如果没有分区&＃xff0c;这是不可能的。下面是在内存或磁盘上使用Spark分区的一些优点。

快速访问数据。
提供在较小的数据集上执行操作的能力。

静态分区【Partitioning at rest (disk)】是许多数据库和数据处理框架的一个特性&＃xff0c;是提高读取速度的关键。

2. Default Spark Partitions & Configurations

Spark在默认情况下基于多个因素对数据进行分区&＃xff0c;这些因素不同于您在哪些模式上运行作业。

2.1. local mode

下面的示例将本地[20]作为参数提供给master()方法&＃xff0c;这意味着使用20个分区在本地运行作业。虽然如果系统上只有8个核心&＃xff0c;它仍然会创建20个分区任务。

def main(args: Array[String]): Unit &＃61; {val spark &＃61; SparkSession.builder.appName("Spark Partitioning Test").master("local[20]").getOrCreate()val df &＃61; spark.range(0,20)print(df.rdd.getNumPartitions)}

2.2. HDFS cluster mode

在Hadoop集群上运行Spark任务时&＃xff0c;默认分区数如下所示。

在HDFS集群中&＃xff0c;Spark默认为每个文件块创建一个Partition。
在Version 1 Hadoop中&＃xff0c;HDFS块大小是64mb&＃xff0c;在Version 2 Hadoop中&＃xff0c;HDFS块大小是128mb
集群中所有执行器节点上的核总数和2个&＃xff0c;取较大的值

例如&＃xff0c;如果您有一个640mb的文件&＃xff0c;并在Hadoop版本2上运行它&＃xff0c;则创建5个分区&＃xff0c;每个分区由128mb块组成(5块* 128mb &＃61; 640mb)。如果您将分区重新划分到10&＃xff0c;那么它将为每个块创建2个分区。

2.3. spark 配置相关参数

spark.default.parallelism配置默认值&＃xff1a;集群模式下&＃xff0c;是集群的所有节点上的所有核数&＃xff0c;在本地模式下&＃xff0c;是机器的核数。
spark.sql.shuffle.partitions配置默认值是200&＃xff0c;在调用shuffle操作时使用&＃xff0c;如union()、groupBy()、join()等。此属性仅在DataFrame API中可用&＃xff0c;在RDD中不可用。

可以在程序中或spark-submit提交任务时&＃xff0c;根据业务需要调整这2个参数的值。

spark.conf.set("spark.sql.shuffle.partitions", "500")

./bin/spark-submit --conf spark.sql.shuffle.partitions&＃61;500 --conf spark.default.parallelism&＃61;500

3. 动态修改Spark分区

从一个文件/表创建一个RDD/DataFrame时&＃xff0c;Spark会根据特定的参数创建一定数量分区的RDD/DataFrame

还提供在运行时修改内存中的分区&＃xff1b;在写入磁盘时&＃xff0c;提供选项基于一个或多个列进行分区

3.1 repartition() & coalesce()

在处理分区数据时&＃xff0c;我们经常需要根据数据分布增加或减少分区。方法repartition()和coalesce()帮助我们重新分区。下面的代码输出为1&＃xff0c;10&＃xff0c;2

文件从https://github.com/spark-examples/pyspark-examples/blob/master/resources/simple-zipcodes.csv 下载

基于采用HashPartitioner进行分区

HashPartitioner采用哈希的方式对键值对数据进行分区。其数据分区规则为 partitionId &＃61; Key.hashCode % numPartitions&＃xff0c;其中partitionId代表该Key对应的键值对数据应当分配到的Partition标识&＃xff0c;Key.hashCode表示该Key的哈希值&＃xff0c;numPartitions表示包含的Partition个数。

def main(args: Array[String]): Unit &＃61; {val spark &＃61; SparkSession.builder.appName("Spark Partitioning Test").master("local[*]").config("spark.default.parallelism",4).getOrCreate()val df&＃61;spark.read.option("header",true).csv("file:///F:/tmp/simple-zipcodes.csv")println(df.rdd.getNumPartitions)//Change DataFrame partitions to 10val newDF&＃61;df.repartition(10)println(newDF.rdd.getNumPartitions)println(newDF.coalesce(2).rdd.getNumPartitions)}

3.2 repartitionBy()

使用partitionBy()方法将Spark DataFrame写入磁盘时&＃xff0c;根据分区列对记录进行分割&＃xff0c;并将每个分区的数据存储到子目录中。

def main(args: Array[String]): Unit &＃61; {val spark &＃61; SparkSession.builder.appName("Spark Partitioning Test").master("local[*]").config("spark.default.parallelism",4).getOrCreate()val df&＃61;spark.read.option("header",true).csv("file:///F:/tmp/simple-zipcodes.csv")df.write.option("header",true).partitionBy("state").mode("overwrite").csv("file:///F:/tmp/zipcodes-state")}

在我们的DataFrame上&＃xff0c;我们总共有6个不同的状态&＃xff0c;因此它创建了6个目录&＃xff0c;如下所示。子目录的名称将是分区列及其值(分区列&＃61;value)。

3.3 partitionBy() Multiple Columns

可以使用Spark partitionBy()在多个列上创建分区。只需将您想要划分的列作为参数传递给此方法

它根据指定的列创建多级分区

df.write.option("header",true).partitionBy("state","city").mode("overwrite").csv("file:///F:/tmp/zipcodes-state")

3.4 repartitionByRange() – 范围分区

下面是一个使用repartitionByRange()转换的范围分区示例。RangePartitioner创建的分区的实际数量可能与指定的分区数量不同&＃xff0c;在这种情况下&＃xff0c;采样记录的数量小于“partitions”的值。

Spark引入RangePartitioner的目的是为了解决HashPartitioner所带来的分区倾斜问题&＃xff0c;也即分区中包含的数据量不均衡问题。HashPartitioner采用哈希的方式将同一类型的Key分配到同一个Partition中&＃xff0c;因此当某一或某几种类型数据量较多时&＃xff0c;就会造成若干Partition中包含的数据过大问题&＃xff0c;而在Job执行过程中&＃xff0c;一个Partition对应一个Task&＃xff0c;此时就会使得某几个Task运行过慢。RangePartitioner基于抽样的思想来对数据进行分区。

def main(args: Array[String]): Unit &＃61; {val spark &＃61; SparkSession.builder.appName("Spark Partitioning Test").master("local[*]").config("spark.default.parallelism", 4).getOrCreate()val data &＃61; Seq((1, 10), (2, 20), (3, 10), (4, 20), (5, 10),(6, 30), (7, 50), (8, 50), (9, 50), (10, 30),(11, 10), (12, 10), (13, 40), (14, 40), (15, 40),(16, 40), (17, 50), (18, 10), (19, 40), (20, 40))import org.apache.spark.sql.functions._import spark.implicits._val dfRange &＃61; data.toDF("id", "count").repartitionByRange(5, col("count"))dfRange.write.option("header", true).csv("file:///F:/tmp/range-partition")}

4. 如何选择Spark分区列

当使用partitionBy(),你必须非常谨慎它创建的分区,如果分区创建了太多太多的子目录,目录带来不必要的开销,NameNode(如果您正在使用Hadoop)因为它必须保持所有文件系统的元数据在内存中。

假设您有一个包含邮政编码、城市、州和其他列的美国人口普查表。在该状态上创建一个分区&＃xff0c;将该表分成大约50个分区&＃xff0c;在一个状态(state&＃61; &＃39; CA &＃39;和zipcode &＃61; &＃39; 92704 &＃39;)内搜索邮政编码会更快&＃xff0c;因为它只需要在state&＃61;CA分区目录中扫描。

另一个分区的好例子是Date列。理想情况下&＃xff0c;应该按年/月划分&＃xff0c;而不是按日期划分

太多分区好嘛&＃xff1f;

如果您是初学者&＃xff0c;您可能会认为过多的分区会提高Spark Job性能&＃xff0c;实际上它不会&＃xff0c;而且它是过度的。
Spark必须为每个分区创建一个任务&＃xff0c;大多数时间都是创建、调度和管理任务&＃xff0c;然后执行

太少分区好嘛?

分区太少也不好&＃xff0c;因为您可能无法充分利用集群资源。
更少的并行性
应用程序可能会运行更长的时间&＃xff0c;因为每个分区需要更多的时间来完成

推荐阅读

instance
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
string
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
export
将.o文件链接到.elf文件时

我有一个从C项目编译的.o文件，该文件引用了名为init_static_pool ... [详细]

蜡笔小新 2024-11-14 10:07:21
string
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
string
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
export
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
string
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
range
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
instance
Java 中 com.apollographql.apollo.api.internal.Optional.orNull() 方法详解与示例

本文详细介绍了 com.apollographql.apollo.api.internal.Optional 类中的 orNull() 方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-11-14 15:03:23
instance
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
string
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
string
Spring 切面配置中的切点表达式详解

本文介绍了如何在Spring框架中使用AspectJ风格的切面配置，详细解释了切点表达式的语法和常见示例，帮助开发者更好地理解和应用Spring AOP。 ... [详细]

蜡笔小新 2024-11-13 14:07:16
ip
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
string
Java高并发与多线程（二）：线程的实现方式详解

本文将深入探讨Java中线程的三种主要实现方式，包括继承Thread类、实现Runnable接口和实现Callable接口，并分析它们之间的异同及其应用场景。 ... [详细]

蜡笔小新 2024-11-12 14:31:23
string
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31

小白菜

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章