当前位置: 开发笔记 > 编程语言 > 正文

SparkRDD分区2G限制

作者：昀尧约_146 | 来源：互联网 | 2023-05-18 16:45

本文主要介绍关于spark,java,scala的知识点，对SparkRDD分区2G限制和spark如何设置分区数有兴趣的朋友可以看下由【jast_zsh】投稿的技术文章，希望该技术和经验能帮到你解

本文主要介绍关于spark,java,scala的知识点，对Spark RDD分区2G限制和spark如何设置分区数有兴趣的朋友可以看下由【jast_zsh】投稿的技术文章，希望该技术和经验能帮到你解决你所遇的spark相关技术问题。

spark如何设置分区数

Spark RDD分区2G限制

文章目录 Spark RDD分区2G限制问题现象解决方法为什么2G限制个人思（yu）考（jian）

问题现象

遇到这个问题时，spark日志会报如下的日志

片段1：

15/04/16 14:13:03 WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, 10.215.149.47): java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE
at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:828)
at org.apache.spark.storage.DiskStore.getBytes(DiskStore.scala:123)
at org.apache.spark.storage.DiskStore.getBytes(DiskStore.scala:132)
at org.apache.spark.storage.BlockManager.doGetLocal(BlockManager.scala:517)
at org.apache.spark.storage.BlockManager.getLocal(BlockManager.scala:432)
at org.apache.spark.storage.BlockManager.get(BlockManager.scala:618)
at org.apache.spark.CacheManager.putInBlockManager(CacheManager.scala:146)
at org.apache.spark.CacheManager.getOrCompute(CacheManager.scala:70)

片段2：

15/04/16 14:19:45 INFO scheduler.TaskSetManager: Starting task 20.2 in stage 6.0 (TID 146, 10.196.151.213, PROCESS_LOCAL, 1666 bytes)

15/04/16 14:19:45 INFO scheduler.TaskSetManager: Lost task 20.2 in stage 6.0 (TID 146) on executor 10.196.151.213: java.lang.IllegalArgumentException (Size exceeds Integer.MAX_VALUE) [duplicate 1]

15/04/16 14:19:45 INFO scheduler.TaskSetManager: Starting task 20.3 in stage 6.0 (TID 147, 10.196.151.213, PROCESS_LOCAL, 1666 bytes)

15/04/16 14:19:45 INFO scheduler.TaskSetManager: Lost task 20.3 in stage 6.0 (TID 147) on executor 10.196.151.213: java.lang.IllegalArgumentException (Size exceeds Integer.MAX_VALUE) [duplicate 2]

15/04/16 14:19:45 ERROR scheduler.TaskSetManager: Task 20 in stage 6.0 failed 4 times; aborting job

15/04/16 14:19:45 INFO cluster.YarnClusterScheduler: Cancelling stage 6

15/04/16 14:19:45 INFO cluster.YarnClusterScheduler: Stage 6 was cancelled

15/04/16 14:19:45 INFO scheduler.DAGScheduler: Job 6 failed: collectAsMap at DecisionTree.scala:653, took 239.760845 s

15/04/16 14:19:45 ERROR yarn.ApplicationMaster: User class threw exception: Job aborted due to stage failure: Task 20 in stage 6.0 failed 4 times, most recent failure: Lost task 20.3 in stage 6.0 (TID 147, 10.196.151.213): java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE

at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:828)

异常就是某个partition的数据量超过了Integer.MAX_VALUE（2147483647 = 2GB）

解决方法

手动设置RDD的分区数量。当前使用的Spark默认RDD分区是18个，后来手动设置为1000个，上面这个问题就迎刃而解了。可以在RDD加载后，使用RDD.repartition(numPart:Int)函数重新设置分区数量。

为什么2G限制

目前spark社区对这个限制有很多讨（tu）论（cao），spark官方团队已经注意到了这个问题，但是直到1.2版本，这个问题还是没有解决。因为牵涉到整个RDD的实现框架，所以改进成本相当大!

下面是一些相关的资料，有兴趣的读者可以进一步的阅读:

2GB limit in spark for blockscreate LargeByteBuffer abstraction for eliminating 2GB limit on blocksWhy does Spark RDD partition has 2GB limit for HDFS抛异常的java代码:FileChannelImpl.java 个人思（yu）考（jian）

这个限制有一定合理性。因为RDD中partition的操作是并发执行的，如果partition量过少，导致并发数过少，会限制计算效率。所以，基于这个限制，spark应用程序开发者会主动扩大partition数量，也就是加大并发量，最终提高计算性能。

转载自：https://www.cnblogs.com/bourneli/p/4456109.html

本文《Spark RDD分区2G限制》版权归jast_zsh所有，引用Spark RDD分区2G限制需遵循CC 4.0 BY-SA版权协议。

推荐阅读

get
FP-Growth 和 K-Means 学习报告

最近学习了数据挖掘常用的两种算法：FP-Growth和K-Means。现在把我的学习结果分享给大家。以下是本文的目录，大家可以根据需要跳过一些章节：1.FP-Grow ... [详细]

蜡笔小新 2024-09-28 09:23:32
int
node学习记录（一）

node的特点：它作为js的运行平台，node保留了前端浏览器js那些熟悉的接口，依旧基于作用于和原型链，区别在于它将前端中广泛应用的思想迁移到服务器。异步IO：关键字:异 ... [详细]

蜡笔小新 2024-09-30 21:00:52
int
spotify engineering culture part 1

原文，因为原视频说的太快太长，又没有字幕，于是借助youtube，把原文听&打出来了。中文版日后有时间再翻译。oneofthebigsucceessfactorshereatSpo ... [详细]

蜡笔小新 2024-09-30 13:36:17
get
ajax自动加载列表页,jQuery+ajax实现滚动到页面底部自动加载图文列表效果(类似图片懒加载)...

本文实例讲述了jQueryajax实现滚动到页面底部自动加载图文列表效果。分享给大家供大家参考，具体如下：phttp:www.w3.orgTRxht ... [详细]

蜡笔小新 2024-09-29 14:45:53
int
接口自动化相关面试题

你好，我是懂Java的测试最近辅导简历，有同学向我反馈，自学过接口自动化、没有落地接口自动化项目办？还有很多同学落地实践过自 ... [详细]

蜡笔小新 2024-09-29 12:34:29
int
Android中如何获取网页源码？

技术点：1、通过已知的网页路径获得流2、把流转换成字节数组3、把字节数组转换成String字符串显示在TextView控件中一、获得流publicstaticSt ... [详细]

蜡笔小新 2024-09-29 11:56:16
int
一个不错的JDBC连接池教程（带具体例子）

1.前言数据库应用，在许多软件系统中经常用到，是开发中大型系统不可缺少的辅助。但如果对数据库资源没有很好地管理(如：没有及时回收数据库的游 ... [详细]

蜡笔小新 2024-09-27 20:22:03
int
TLB 缓存延迟刷新漏洞 CVE201818281 解析

TLB 缓存延迟刷新漏洞 CVE201818281 解析 ... [详细]

蜡笔小新 2024-09-27 17:53:48
int
Electron中globalShortcut模块注册全局快捷键

Electron中使用globalShortcut模块来注册全局快捷键，以实现类似于微信和QQ按快捷键调用剪切窗口的功能。快捷键在应用程序加载完成后进行注册 ... [详细]

蜡笔小新 2024-09-27 08:08:34
cookie
crossorigin注解添加了解决不了跨域问题_CORS与@CrossOrigin详解

1、跨域的基本概念a、跨域的解释要了解跨域，首先需要知晓浏览器的同源策略，简单的说就是两个请求协议、端口、主机都相同，则两个请求具有相同的 ... [详细]

蜡笔小新 2024-09-30 19:24:12
int
UNP总结 Chapter 12~14 IPv4与IPv6的互操作性、守护进程和inet超级服务器、高级I/O函数

一、IPv4与IPv6的互操作性1.IPv4客户与IPv6服务器拥有双重协议栈的主机的一个基本特性就是：其上运行的IPv6服务器既能应付IPv4客户，又能应付IPv6客户。这是通过使用IPv4映射 ... [详细]

蜡笔小新 2024-09-30 18:55:51
int
python如何设计工具类_常用工具类

Java的核心库提供了大量的现成的类供我们使用。本节我们介绍几个常用的工具类。Math顾名思义，Math类就是用来进行数学计算的，它提供了大量的静态 ... [详细]

蜡笔小新 2024-09-30 18:43:10
int
22.Container With Most Water（能装最多水的容器）

thecontainercontainsthemos ... [详细]

蜡笔小新 2024-09-30 18:33:10
int
Jeecg中的<t:datagrid treegrid="true">实现

eecg的代码生成器很不错，但是可能有的时候不是那么符合我们实际项目的功能需求，这里会首先介绍jeecg原生生成的样子，以及根据需求进行的改造。Jeecg中的 ... [详细]

蜡笔小新 2024-09-27 12:46:12
get
RedisCluster数据迁移之redisshake（集群到集群）

1、背景-在项目的实施过程中，由于有dev环境和pro环境，这时会有两个redis集群，但是部分数据从甲方的三方数据库中获取存入生产环境的redis集群中，为了方便测试和数据校验， ... [详细]

蜡笔小新 2024-09-27 09:33:40

昀尧约_146

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章