当前位置: 开发笔记 > 编程语言 > 正文

本文_SPARK中会对Scan的小文件做合并到一个Task去处理么？

作者：帅哥不潮_460 | 来源：互联网 | 2023-09-07 21:24

篇首语：本文由编程笔记#小编为大家整理，主要介绍了SPARK中会对Scan的小文件做合并到一个Task去处理么？相关的知识，希望对你有一定的参考价值。背景

篇首语：本文由编程笔记#小编为大家整理，主要介绍了SPARK中会对Scan的小文件做合并到一个Task去处理么？相关的知识，希望对你有一定的参考价值。

背景

本文基于SPARK 3.1.2
在之前查看SQL物理计划的时候&＃xff0c;发现一个很奇怪的现象&＃xff0c;文件的个数很多&＃xff0c;但是启动的Task却很少。

结论

SPARK在scan文件的时候&＃xff0c;会把小文件合并到一个Task上去处理。

分析

这里的SQL很简单&＃xff1a;就是select col from table语句我们直接查看对应的计划&＃xff1a;

可以看到对于有50000多个文件的source&＃xff0c;最终却只有6000多个任务运行。
我们直接看对应的代码FileSourceScanExec实现&＃xff1a;

val splitFiles &＃61; selectedPartitions.flatMap partition &＃61;> partition.files.flatMap file &＃61;> // getPath() is very expensive so we only want to call it once in this block: val filePath &＃61; file.getPath val isSplitable &＃61; relation.fileFormat.isSplitable( relation.sparkSession, relation.options, filePath) PartitionedFileUtil.splitFiles( sparkSession &＃61; relation.sparkSession, file &＃61; file, filePath &＃61; filePath, isSplitable &＃61; isSplitable, maxSplitBytes &＃61; maxSplitBytes, partitionValues &＃61; partition.values ) .sortBy(_.length)(implicitly[Ordering[Long]].reverse) val partitions &＃61; FilePartition.getFilePartitions(relation.sparkSession, splitFiles, maxSplitBytes) new FileScanRDD(fsRelation.sparkSession, readFile, partitions)

PartitionedFileUtil.splitFiles就是对每个文件进行遍历&＃xff0c;如果一个文件超过了maxSplitBytes,这个可以参考Spark-读取Parquet-为什么task数量会多于Row Group的数量,就进行切分&＃xff0c;否则就直接返回整个文件&＃xff0c;
关键的在FilePartition.getFilePartitions(relation.sparkSession, splitFiles, maxSplitBytes):

... partitionedFiles.foreach file &＃61;> if (currentSize &＃43; file.length > maxSplitBytes) closePartition() // Add the given file to the current partition. currentSize &＃43;&＃61; file.length &＃43; openCostInBytes currentFiles &＃43;&＃61; file ...

她会根据maxSplitBytes来判断&＃xff0c;如果文件小于该阈值&＃xff0c;就会放到同一个FilePartition中&＃xff0c;从而让一个Task去处理&＃xff0c;这样就会出现了图上所展示的小文件很多但是Task缺比较小的现象。

推荐阅读

case
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
uri
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
sum
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
case
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
io
MySQL 数据迁移时 .frm 文件报错问题

本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-11-12 10:47:49
js
Spark中使用map或flatMap将DataSet[A]转换为DataSet[B]时Schema变为Binary的问题及解决方案

本文探讨了在使用Spark的map或flatMap算子将一个数据集转换为另一个数据集时，遇到的Schema变为Binary的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-12 08:06:20
byte
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
text
C++实现的键盘输入记录程序源代码分析与应用

本文详细解析了使用C++实现的键盘输入记录程序的源代码，该程序在Windows应用程序开发中具有很高的实用价值。键盘记录功能不仅在远程控制软件中广泛应用，还为开发者提供了强大的调试和监控工具。通过具体实例，本文深入探讨了C++键盘记录程序的设计与实现，适合需要相关技术的开发者参考。 ... [详细]

蜡笔小新 2024-11-10 15:44:03
perl
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
input
FFMpeg学习进阶：音频处理基础理论与重采样技术详解

在Android平台中，播放音频的采样率通常固定为44.1kHz，而录音的采样率则固定为8kHz。为了确保音频设备的正常工作，底层驱动必须预先设定这些固定的采样率。当上层应用提供的采样率与这些预设值不匹配时，需要通过重采样（resample）技术来调整采样率，以保证音频数据的正确处理和传输。本文将详细探讨FFMpeg在音频处理中的基础理论及重采样技术的应用。 ... [详细]

蜡笔小新 2024-11-09 13:46:55
byte
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
input
Java Web开发入门指南：第一篇教程

作为软件工程专业的学生，我深知课堂上教师讲解速度之快，很多时候需要课后自行消化和巩固。因此，撰写这篇Java Web开发入门教程，旨在帮助初学者更好地理解和掌握基础知识。通过详细记录学习过程，希望能为更多像我一样在基础方面还有待提升的学员提供有益的参考。 ... [详细]

蜡笔小新 2024-11-07 13:36:27
byte
Python 数据库操作指南：MySQL 与 Redis 实战技巧

本文详细介绍了使用 Python 进行 MySQL 和 Redis 数据库操作的实战技巧。首先，针对 MySQL 数据库，通过 `pymysql` 模块展示了如何连接和操作数据库，包括建立连接、执行查询和更新等常见操作。接着，文章深入探讨了 Redis 的基本命令和高级功能，如键值存储、列表操作和事务处理。此外，还提供了多个实际案例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-07 12:55:01
go
在Kohana 3中实现最优的“即时消息”显示方法 - Best Practices for Displaying 'Flash Messages' in Kohana 3

在Kohana 3框架中，实现最优的即时消息显示方法是许多开发者关注的问题。本文将探讨如何高效、优雅地展示flash消息，包括最佳实践和技术细节，以提升用户体验和代码可维护性。 ... [详细]

蜡笔小新 2024-11-06 21:13:53
case
某CMS 20180827版前端存在GETShell漏洞分析

2018年9月21日，Destoon官方发布了安全更新，修复了一个由用户“索马里的海贼”报告的前端GETShell漏洞。该漏洞存在于20180827版本的某CMS中，攻击者可以通过构造特定的HTTP请求，利用该漏洞在服务器上执行任意代码，从而获得对系统的控制权。此次更新建议所有用户尽快升级至最新版本，以确保系统的安全性。 ... [详细]

蜡笔小新 2024-11-06 11:57:32

帅哥不潮_460

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章