热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PytorchDataLoader内存泄漏RuntimeError:received0itemsofancdata

现象内存占用随着训练过程逐渐增大,最终Outofmemory。即使将不再用到的变量及时删除并使用gc.collect(),也无法解决。解决方案方案

现象

内存占用随着训练过程逐渐增大,最终Out of memory。即使将不再用到的变量及时删除并使用gc.collect(),也无法解决。

解决方案


方案1:Dataset 的成员变量避免使用Python原生数据格式

以下面的Dataset代码为例,如果使用 self.data = [x for x in range(24000000)],即使用了List作为Dataset的成员变量,当 num_worker>0 时就会导致前面的现象,而改用numpy ndarray 包装一下就没问题了。另外,参考资料3里面说用DataFrame也会有问题。

小结:定义Dataset的成员变量时,使用 numpy ndarray 代替 List 和 DataFrame.

from torch.utils.data import Dataset, DataLoader
import numpy as np
import torchclass DataIter(Dataset):def __init__(self):self.data = [x for x in range(24000000)] # 有内存溢出风险!!!# 改成下面这样可以避免!self.data = np.array([x for x in range(24000000)]) def __len__(self):return len(self.data)def __getitem__(self, idx):data = self.data[idx]data = np.array([data], dtype=np.int64)return torch.tensor(data)

方案2&#xff1a;将 num_worker 设成 <总CPU物理核心数

# 总核数 &#61; 物理CPU个数 X 每颗物理CPU的核数 # 查看物理CPU个数
cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)
cat /proc/cpuinfo| grep "cpu cores"| uniq

例如我的机器得到结果是 物理CPU个数 1 乘以 7个物理核/CPU&#61;总7个物理核心&#xff0c;所以需要将 num_worker 设得比7更小&#xff0c;例如可以设为 5&#xff08;设为5表示有5个子进程&#xff0c;加上主进程&#xff0c;整个训练的过程就启动了6个进程&#xff09;.

方案3&#xff1a;避免使用cycle和zip函数

之前参加了一些数据比赛&#xff0c;其中有些baseline使用到了 cycle 来封装一层dataloader&#xff0c;使其可以循环读取&#xff0c;但是这会导致内存泄漏&#xff0c;即使你解决了一个问题&#xff0c;另一个问题又会冒出来&#xff0c;我这里举几个会导致的错误&#xff1a;

1、RuntimeError: received 0 items of ancdata

2、RuntimeError: DataLoader worker (pid 20655) is killed by signal: Killed

3、OSError: [Errno 12] Cannot allocate memory.

等等等等。总之&#xff0c;避免使用cycle&#xff01;万恶之源啊&#xff01;

另外&#xff0c;据说 zip 函数也会导致内存泄漏&#xff0c;见 https://www.mmbyte.com/article/48441.html

方案4&#xff1a;将num_worker设为0

如果前面的方案都不奏效&#xff0c;而且2个一起用上也没用的话&#xff0c;最后还可以考虑将num_worker设为0&#xff0c;设为0表示只使用主进程进行加载数据。

参考资料

[1] https://discuss.pytorch.org/t/num-workers-in-dataloader-will-increase-memory-usage/28522/7
[2] https://github.com/pytorch/pytorch/issues/13246
[3] https://github.com/pytorch/pytorch/issues/5902


推荐阅读
author-avatar
广东木叶冷
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有