PytorchDataLoader内存泄漏RuntimeError:received0itemsofancdata

作者：广东木叶冷 | 来源：互联网 | 2023-09-25 23:01

现象内存占用随着训练过程逐渐增大，最终Outofmemory。即使将不再用到的变量及时删除并使用gc.collect()，也无法解决。解决方案方案

现象

内存占用随着训练过程逐渐增大&＃xff0c;最终Out of memory。即使将不再用到的变量及时删除并使用gc.collect()&＃xff0c;也无法解决。

解决方案

方案1&＃xff1a;Dataset 的成员变量避免使用Python原生数据格式

以下面的Dataset代码为例&＃xff0c;如果使用 self.data &＃61; [x for x in range(24000000)]&＃xff0c;即使用了List作为Dataset的成员变量&＃xff0c;当 num_worker>0 时就会导致前面的现象&＃xff0c;而改用numpy ndarray 包装一下就没问题了。另外&＃xff0c;参考资料3里面说用DataFrame也会有问题。

小结&＃xff1a;定义Dataset的成员变量时&＃xff0c;使用 numpy ndarray 代替 List 和 DataFrame.

from torch.utils.data import Dataset, DataLoader import numpy as np import torchclass DataIter(Dataset):def __init__(self):self.data &＃61; [x for x in range(24000000)] # 有内存溢出风险&＃xff01;&＃xff01;&＃xff01;# 改成下面这样可以避免&＃xff01;self.data &＃61; np.array([x for x in range(24000000)]) def __len__(self):return len(self.data)def __getitem__(self, idx):data &＃61; self.data[idx]data &＃61; np.array([data], dtype&＃61;np.int64)return torch.tensor(data)

方案2&＃xff1a;将 num_worker 设成 <总CPU物理核心数

例如我的机器得到结果是物理CPU个数 1 乘以 7个物理核/CPU&＃61;总7个物理核心&＃xff0c;所以需要将 num_worker 设得比7更小&＃xff0c;例如可以设为 5&＃xff08;设为5表示有5个子进程&＃xff0c;加上主进程&＃xff0c;整个训练的过程就启动了6个进程&＃xff09;.

方案3&＃xff1a;避免使用cycle和zip函数

之前参加了一些数据比赛&＃xff0c;其中有些baseline使用到了 cycle 来封装一层dataloader&＃xff0c;使其可以循环读取&＃xff0c;但是这会导致内存泄漏&＃xff0c;即使你解决了一个问题&＃xff0c;另一个问题又会冒出来&＃xff0c;我这里举几个会导致的错误&＃xff1a;

1、RuntimeError: received 0 items of ancdata

2、RuntimeError: DataLoader worker (pid 20655) is killed by signal: Killed

3、OSError: [Errno 12] Cannot allocate memory.

等等等等。总之&＃xff0c;避免使用cycle&＃xff01;万恶之源啊&＃xff01;

另外&＃xff0c;据说 zip 函数也会导致内存泄漏&＃xff0c;见 https://www.mmbyte.com/article/48441.html

方案4&＃xff1a;将num_worker设为0

如果前面的方案都不奏效&＃xff0c;而且2个一起用上也没用的话&＃xff0c;最后还可以考虑将num_worker设为0&＃xff0c;设为0表示只使用主进程进行加载数据。

参考资料

[1] https://discuss.pytorch.org/t/num-workers-in-dataloader-will-increase-memory-usage/28522/7
[2] https://github.com/pytorch/pytorch/issues/13246
[3] https://github.com/pytorch/pytorch/issues/5902

推荐阅读

grep
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
go
Ubuntu 14.04 环境下搭建 Caffe（仅限 CPU）

本文详细介绍了如何在 Ubuntu 14.04 系统上搭建仅使用 CPU 的 Caffe 深度学习框架，包括环境准备、依赖安装及编译过程。 ... [详细]

蜡笔小新 2024-11-22 16:43:30
go
探讨Java中将图像对象转换为文件和字节数组的方法

本文详细探讨了在Java中如何将图像对象转换为文件和字节数组（Byte[]）的技术。虽然网络上存在大量相关资料，但实际操作时仍需注意细节。本文通过使用JMSL 4.0库中的图表对象作为示例，提供了一种实用的方法。 ... [详细]

蜡笔小新 2024-11-21 21:42:59
bash
Zabbix自定义监控与邮件告警配置实践

本文详细介绍了如何在Zabbix中添加自定义监控项目，配置邮件告警功能，并解决测试告警时遇到的邮件不发送问题。 ... [详细]

蜡笔小新 2024-11-22 08:33:19
install
如何在Django框架中实现对象关系映射（ORM）

本文介绍了Django框架中对象关系映射（ORM）的实现方式，通过ORM，开发者可以通过定义模型类来间接操作数据库表，从而简化数据库操作流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-21 17:17:01
install
Python技巧：将相同元素聚合至矩阵

本文探讨了如何在Python中将具有相同值的元素分组到矩阵中，这是一个在数据分析和处理中常见的需求。 ... [详细]

蜡笔小新 2024-11-21 17:07:12
install
Java 中的十进制样式 getZeroDigit()方法，示例

Java 中的十进制样式 getZeroDigit()方法，示例 ... [详细]

蜡笔小新 2024-11-21 16:53:03
c语言
JUnit下的测试和suite

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-21 16:03:49
go
Singleton单例模式和DoubleChecked Locking双重检查锁定模式

问题描述现在，不管开发一个多大的系统（至少我现在的部门是这样的），都会带一个日志功能；在实际开发过程中 ... [详细]

蜡笔小新 2024-11-21 15:14:45
go
IC卡操作功能实现

本文介绍了如何通过C#语言调用动态链接库（DLL）中的函数来实现IC卡的基本操作，包括初始化设备、设置密码模式、获取设备状态等，并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]

蜡笔小新 2024-11-21 11:02:19
utf-8
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
install
binlog2sql，你该知道的数据恢复工具

binlog2sql，你该知道的数据恢复工具 ... [详细]

蜡笔小新 2024-11-22 18:58:43
random
为何Compose与Swarm之后仍有Kubernetes的诞生？

探讨在已有Compose和Swarm的情况下，Kubernetes是如何以其独特的设计理念和技术优势脱颖而出，成为容器编排领域的领航者。 ... [详细]

蜡笔小新 2024-11-22 09:26:11
utf-8
Struts2 + json+ jquery 实现三级联动action和jsp代码竟然有小红叉，提示缺双引号，检查了转义符号也没缺啊，求解

publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]

蜡笔小新 2024-11-21 16:25:41
go
Go从入门到精通系列视频之go编程语言密码学哈希算法（二）

Go从入门到精通系列视频之go编程语言密码学哈希算法（二） ... [详细]

蜡笔小新 2024-11-21 10:55:36

广东木叶冷

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章