Python的json模块的内存使用量很大？-HugememoryusageofPython'sjsonmodule?

作者：书友48919914 | 来源：互联网 | 2023-09-07 17:57

WhenIloadthefileintojson,pythonsmemoryusagespikestoabout1.8GBandIcantseemtogett

When I load the file into json, pythons memory usage spikes to about 1.8GB and I can't seem to get that memory to be released. I put together a test case that's very simple:

当我将文件加载到json中时，pythons将内存使用量峰值提升到大约1.8GB，我似乎无法释放该内存。我整理了一个非常简单的测试用例：

with open("test_file.json", 'r') as f:
    j = json.load(f)

I'm sorry that I can't provide a sample json file, my test file has a lot of sensitive information, but for context, I'm dealing with a file in the order of 240MB. After running the above 2 lines I have the previously mentioned 1.8GB of memory in use. If I then do del j memory usage doesn't drop at all. If I follow that with a gc.collect() it still doesn't drop. I even tried unloading the json module and running another gc.collect.

很抱歉我无法提供示例json文件，我的测试文件有很多敏感信息，但对于上下文，我正在处理240MB的文件。运行上面的2行后，我使用了前面提到的1.8GB内存。如果我然后做del j内存使用不会下降。如果我用gc.collect（）跟着它，它仍然不会掉线。我甚至尝试卸载json模块并运行另一个gc.collect。

I'm trying to run some memory profiling but heapy has been churning 100% CPU for about an hour now and has yet to produce any output.

我正在尝试运行一些内存分析，但是堆积已经在100％CPU上搅拌了大约一个小时，现在还没有产生任何输出。

Does anyone have any ideas? I've also tried the above using cjson rather than the packaged json module. cjson used about 30% less memory but otherwise displayed exactly the same issues.

有没有人有任何想法？我也尝试过使用cjson而不是打包的json模块。 cjson使用的内存减少了约30％，但显示的问题完全相同。

I'm running Python 2.7.2 on Ubuntu server 11.10.

我在Ubuntu服务器11.10上运行Python 2.7.2。

I'm happy to load up any memory profiler and see if it does better then heapy and provide any diagnostics you might think are necessary. I'm hunting around for a large test json file that I can provide for anyone else to give it a go.

我很高兴加载任何内存分析器，看看它是否比堆更好，并提供您认为必要的任何诊断。我正在寻找一个大型测试json文件，我可以为其他任何人提供它。

1 个解决方案

#1

I think these two links address some interesting points about this not necessarily being a json issue, but rather just a "large object" issue and how memory works with python vs the operating system

我认为这两个链接解决了一些有趣的问题，这不一定是一个json问题，而只是一个“大对象”问题以及内存如何与python和操作系统一起工作

See Why doesn't Python release the memory when I delete a large object? for why memory released from python is not necessarily reflected by the operating system:

请参阅为什么删除大对象时Python不会释放内存？为什么从python释放的内存不一定反映在操作系统中：

If you create a large object and delete it again, Python has probably released the memory, but the memory allocators involved don’t necessarily return the memory to the operating system, so it may look as if the Python process uses a lot more virtual memory than it actually uses.

如果你创建一个大对象并再次删除它，Python可能已经释放了内存，但所涉及的内存分配器不一定会将内存返回给操作系统，所以看起来好像Python进程使用了更多的虚拟内存而不是实际使用。

About running large object processes in a subprocess to let the OS deal with cleaning up:

关于在子进程中运行大对象进程以让操作系统处理清理：

The only really reliable way to ensure that a large but temporary use of memory DOES return all resources to the system when it's done, is to have that use happen in a subprocess, which does the memory-hungry work then terminates. Under such conditions, the operating system WILL do its job, and gladly recycle all the resources the subprocess may have gobbled up. Fortunately, the multiprocessing module makes this kind of operation (which used to be rather a pain) not too bad in modern versions of Python.

确保大量但临时使用内存的唯一真正可靠的方法是在完成后将所有资源返回给系统，就是在子进程中使用该进程，这会占用大量内存，然后终止工作。在这种情况下，操作系统将完成其工作，并乐意回收子进程可能已经吞噬的所有资源。幸运的是，多处理模块在现代版本的Python中进行这种操作（过去相当痛苦）并不算太糟糕。

推荐阅读

function
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
function
成功安装Sabayon Linux在thinkpad X60上的经验分享

本文分享了作者在国庆期间在thinkpad X60上成功安装Sabayon Linux的经验。通过修改CHOST和执行emerge命令，作者顺利完成了安装过程。Sabayon Linux是一个基于Gentoo Linux的发行版，可以将电脑快速转变为一个功能强大的系统。除了作为一个live DVD使用外，Sabayon Linux还可以被安装在硬盘上，方便用户使用。 ... [详细]

蜡笔小新 2023-12-13 11:35:40
function
如何在codeigniter中识别angularjs请求

本文讨论了如何在codeigniter中识别来自angularjs的请求，并提供了两种方法的代码示例。作者尝试了$this->input->is_ajax_request()和自定义函数is_ajax()，但都没有成功。最后，作者展示了一个ajax请求的示例代码。 ... [详细]

蜡笔小新 2023-12-12 12:37:07
int
RouterOS 5.16软路由安装图解教程

本文介绍了如何安装RouterOS 5.16软路由系统，包括系统要求、安装步骤和登录方式。同时提供了详细的图解教程，方便读者进行操作。 ... [详细]

蜡笔小新 2023-12-12 10:22:22
int
Oracle存储过程写法小例子及已命名的异常

本文介绍了Oracle存储过程的基本语法和写法示例，同时还介绍了已命名的系统异常的产生原因。 ... [详细]

蜡笔小新 2023-12-11 15:10:15
format
Vagrant虚拟化工具的安装和使用教程

本文介绍了Vagrant虚拟化工具的安装和使用教程。首先介绍了安装virtualBox和Vagrant的步骤。然后详细说明了Vagrant的安装和使用方法，包括如何检查安装是否成功。最后介绍了下载虚拟机镜像的步骤，以及Vagrant镜像网站的相关信息。 ... [详细]

蜡笔小新 2023-12-11 14:24:00
int
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
int
使用圣杯布局模式实现网站首页的内容布局

本文介绍了使用圣杯布局模式实现网站首页的内容布局的方法，包括HTML部分代码和实例。同时还提供了公司新闻、最新产品、关于我们、联系我们等页面的布局示例。商品展示区包括了车里子和农家生态土鸡蛋等产品的价格信息。 ... [详细]

蜡笔小新 2023-12-10 20:09:23
merge
十大经典排序算法动图演示+Python实现

本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序，常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念，并提供了相关的名词解释。 ... [详细]

蜡笔小新 2023-12-10 19:28:59
jsp
主从数据库架构配置及实验环境搭建方法

本文介绍了在Web应用系统中，数据库性能是导致系统性能瓶颈最主要的原因之一，尤其是在大规模系统中，数据库集群已经成为必备的配置之一。文章详细介绍了主从数据库架构的好处和实验环境的搭建方法，包括主数据库的配置文件修改和设置需要同步的数据库等内容。MySQL的主从复制功能在国内外大型网站架构体系中被广泛采用，本文总结了作者在实际的Web项目中的实践经验。 ... [详细]

蜡笔小新 2023-12-10 12:20:19
uri
生产环境下JVM调优参数的设置实例

正文前先来一波福利推荐：福利一：百万年薪架构师视频，该视频可以学到很多东西，是本人花钱买的VIP课程，学习消化了一年，为了支持一下女朋友公众号也方便大家学习，共享给大家。福利二 ... [详细]

蜡笔小新 2023-10-17 14:08:49
usb
Apple iPad：过渡设备还是平板电脑？

I’vebeenagonizingoverwhethertopostaniPadarticle.Applecertainlydon’tneedmorepublicityandthe ... [详细]

蜡笔小新 2023-10-16 20:17:56
int
IB 物理真题解析：比潜热、理想气体的应用

本文是对2017年IB物理试卷paper 2中一道涉及比潜热、理想气体和功率的大题进行解析。题目涉及液氧蒸发成氧气的过程，讲解了液氧和氧气分子的结构以及蒸发后分子之间的作用力变化。同时，文章也给出了解题技巧，建议根据得分点的数量来合理分配答题时间。最后，文章提供了答案解析，标注了每个得分点的位置。 ... [详细]

蜡笔小新 2023-12-14 15:00:29
function
【openwrt】设备mt7628关于wan侧eth0.1 mac地址固定的问题

本文讨论了在openwrt-17.01版本中，mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下，而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等，生成后的mac地址会保存在/etc/config/network下。 ... [详细]

蜡笔小新 2023-12-12 17:47:48
function
MySQL显示SQL语句执行时间的实例详解

本文详细介绍了如何使用MySQL来显示SQL语句的执行时间，并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法：瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]

蜡笔小新 2023-12-12 16:16:42

书友48919914

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章