热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

javapython运行内存_java.lang.OutOfMemoryError在rdd.托收()当所有内存设置都设置为拥抱时...

我用sparksubmit运行以下python脚本rrdd.map(list).groupBy(lambdax:x[0]).map(lambdax:x[1]).map(list)r

我用spark submit运行以下python脚本r = rdd.map(list).groupBy(lambda x: x[0]).map(lambda x: x[1]).map(list)

r_labeled = r.map(f_0).flatMap(f_1)

r_labeled.map(lambda x: x[3]).collect()

它得到了java.lang.OutOfMemoryError,特别是最后一行的collect()操作

^{pr2}$

消息显示OutOfMemoryError,但没有其他内容。是关于堆、垃圾收集还是什么的?我不知道。在

不管怎样,我试着把所有关于内存的东西配置成巨大的价值。在spark.driver.maxResultSize = 0 # no limit

spark.driver.memory = 150g

spark.executor.memory = 150g

spark.worker.memory = 150g

(并且服务器有157g的可用物理内存。)

同样的错误仍然存在。在

然后我把输入数据减少了一点,代码每次都能完美地通过。实际上,collect()获得的数据大约是1.8g,远远小于物理15g内存。在

现在,我确信错误不是关于代码和物理内存是没有限制的。这就像输入数据的大小有一个阈值,传递它将导致内存不足错误。在

那么我怎样才能提升这个thresold,这样我就可以在没有内存错误的情况下处理更大的输入数据呢?有什么设置吗?在

谢谢。在

==========随访========

根据this,这个错误与Java序列化程序和映射转换中的大对象有关。我确实在代码中使用了大对象。

想知道如何让Java序列化程序适应大对象。在



推荐阅读
  • 本文探讨了一个Web工程项目的需求,即允许用户随时添加定时任务,并通过Quartz框架实现这些任务的自动化调度。文章将介绍如何设计任务表以存储任务信息和执行周期,以及如何通过一个定期扫描机制自动识别并加载新任务到调度系统中。 ... [详细]
  • 本文探讨了在使用 MyBatis 进行批量数据处理时遇到的参数绑定异常问题,并提供了详细的解决方案。 ... [详细]
  • 我在尝试将组合框转换为具有自动完成功能时遇到了一个问题,即页面上的列表框也被转换成了自动完成下拉框,而不是保持原有的多选列表框形式。 ... [详细]
  • selenium通过JS语法操作页面元素
    做过web测试的小伙伴们都知道,web元素现在很多是JS写的,那么既然是JS写的,可以通过JS语言去操作页面,来帮助我们操作一些selenium不能覆盖的功能。问题来了我们能否通过 ... [详细]
  • 在CentOS 7中部署Nginx并配置SSL证书
    本文详细介绍了如何在CentOS 7操作系统上安装Nginx服务器,并配置SSL证书以增强网站的安全性。适合初学者和中级用户参考。 ... [详细]
  • 本文由公众号【数智物语】(ID: decision_engine)发布,关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程,介绍了41款实用工具,旨在帮助数据科学家和分析师提升工作效率。 ... [详细]
  • Centos7 Tomcat9 安装笔记
    centos7,tom ... [详细]
  • 利用Docker部署JupyterHub以支持Python协同开发
    本文介绍了如何通过Docker容器化技术安装和配置JupyterHub,以实现多用户的Python开发环境,特别适合团队协作场景。 ... [详细]
  • 本文详细介绍了Apache Spark 2.2.0版本中集群模式的基本概念和工作流程,包括如何通过集群管理器分配资源,以及Spark应用程序在集群中的运行机制。链接:http://spark.apache.org/docs/2.2.0/cluster-overview.html ... [详细]
  • 面对众多的数据分析工具,如何选择最适合自己的那一个?对于初学者而言,了解并掌握几种核心工具是快速入门的关键。本文将从数据处理的不同阶段出发,推荐三种广泛使用的数据分析工具。 ... [详细]
  • 本文探讨了如何使用Scrapy框架构建高效的数据采集系统,以及如何通过异步处理技术提升数据存储的效率。同时,文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]
  • 本文探讨了在已知最终数组尺寸不会超过5000x10的情况下,如何利用预分配和调整大小的方法来优化Numpy数组的创建过程,以提高性能并减少内存消耗。 ... [详细]
  • 本文介绍了如何使用 Python 的 Pyglet 库加载并显示图像。Pyglet 是一个用于开发图形用户界面应用的强大工具,特别适用于游戏和多媒体项目。 ... [详细]
  • Canopy环境安装与使用指南
    《利用Python进行数据分析》一书推荐使用EPDFree版本的环境,然而随着技术的发展,目前更多人倾向于使用Canopy。本文将详细介绍Canopy的安装及使用方法。 ... [详细]
  • 本文分享了作者在使用LaTeX过程中的几点心得,涵盖了从文档编辑、代码高亮、图形绘制到3D模型展示等多个方面的内容。适合希望深入了解LaTeX高级功能的用户。 ... [详细]
author-avatar
水果jia
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有