当前位置: 开发笔记 > 编程语言 > 正文

javapython运行内存_java.lang.OutOfMemoryError在rdd.托收（）当所有内存设置都设置为拥抱时...

作者：水果jia | 来源：互联网 | 2023-09-25 16:50

我用sparksubmit运行以下python脚本rrdd.map(list).groupBy(lambdax:x[0]).map(lambdax:x[1]).map(list)r

我用spark submit运行以下python脚本r &＃61; rdd.map(list).groupBy(lambda x: x[0]).map(lambda x: x[1]).map(list)

r_labeled &＃61; r.map(f_0).flatMap(f_1)

r_labeled.map(lambda x: x[3]).collect()

它得到了java.lang.OutOfMemoryError&＃xff0c;特别是最后一行的collect()操作

^{pr2}$

消息显示OutOfMemoryError&＃xff0c;但没有其他内容。是关于堆、垃圾收集还是什么的&＃xff1f;我不知道。在

不管怎样&＃xff0c;我试着把所有关于内存的东西配置成巨大的价值。在spark.driver.maxResultSize &＃61; 0 # no limit

spark.driver.memory &＃61; 150g

spark.executor.memory &＃61; 150g

spark.worker.memory &＃61; 150g

(并且服务器有157g的可用物理内存。)

同样的错误仍然存在。在

然后我把输入数据减少了一点&＃xff0c;代码每次都能完美地通过。实际上&＃xff0c;collect()获得的数据大约是1.8g&＃xff0c;远远小于物理15g内存。在

现在&＃xff0c;我确信错误不是关于代码和物理内存是没有限制的。这就像输入数据的大小有一个阈值&＃xff0c;传递它将导致内存不足错误。在

那么我怎样才能提升这个thresold&＃xff0c;这样我就可以在没有内存错误的情况下处理更大的输入数据呢&＃xff1f;有什么设置吗&＃xff1f;在

谢谢。在

&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;随访&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;

根据this&＃xff0c;这个错误与Java序列化程序和映射转换中的大对象有关。我确实在代码中使用了大对象。

想知道如何让Java序列化程序适应大对象。在

推荐阅读

yaml
深入解析：OpenShift Origin环境下的Kubernetes Spark Operator

本文探讨了如何在OpenShift Origin平台上利用Kubernetes Spark Operator来管理和部署Apache Spark集群与应用。作为Radanalytics.io项目的一部分，这一开源工具为大数据处理提供了强大的支持。 ... [详细]

蜡笔小新 2024-12-19 14:07:35
yaml
集成Spark Streaming与Flume：V1.4.1实践指南

本文详细介绍了如何配置Apache Flume与Spark Streaming，实现高效的数据传输。文中提供了两种集成方案，旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]

蜡笔小新 2024-12-13 15:12:31
foreach
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
foreach
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
grid
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
command
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
command
SparkSQL 中 DataFrame 的构建方法

本文详细探讨了如何在 SparkSQL 中创建 DataFrame，涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分，本文将持续更新以提供最新信息。 ... [详细]

蜡笔小新 2024-12-10 18:55:21
controller
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
copy
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
include
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
copy
Python 提取和替换 Word 文档中的图片

本文介绍如何使用 Python 提取和替换 .docx 文件中的图片。.docx 文件本质上是压缩文件，通过解压可以访问其中的图片资源。此外，我们还将探讨使用第三方库 docx 的方法来简化这一过程。 ... [详细]

蜡笔小新 2024-12-26 18:52:14
copy
Python 列表切片详解与应用

本文深入探讨了 Python 列表切片的基本概念和实际应用，通过具体示例展示了不同切片方式的使用方法及其背后的逻辑。 ... [详细]

蜡笔小新 2024-12-26 16:46:25
copy
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
copy
Python入门指南：从零开始的全面学习路线

本文详细介绍了Python编程语言的学习路径，涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划，帮助初学者快速掌握Python的核心技能。 ... [详细]

蜡笔小新 2024-12-25 12:54:33
copy
尾花|花萼_相关性Correlations 皮尔逊相关系数（pearson）和斯皮尔曼等级相关系数（spearman）

尾花|花萼_相关性Correlations 皮尔逊相关系数（pearson）和斯皮尔曼等级相关系数（spearman） ... [详细]

蜡笔小新 2024-12-19 11:28:16

水果jia

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章