当前位置: 开发笔记 > 编程语言 > 正文

【PyTorch】使用DataLoader自定义数据集读取

作者：只爱裙装 | 来源：互联网 | 2023-08-11 20:34

【PyTorch】使用DataLoader自定义数据集读取为了方便之后使用PyTorch的distributed部署，加速训练，将数据读取的方式改为适

为了方便之后使用PyTorch的distributed部署&＃xff0c;加速训练&＃xff0c;将数据读取的方式改为适配pytorch提供的Dataset和DataLoader的方式。这里记录一下修改的要点&＃xff1a;

1. 涉及的import库&＃xff1a;

import torch from torch.utils.data import Dataset, DataLoader

2. 自定义一个Dataset类&＃xff1a;

该类继承Dataset;
可以定义若干个数据预处理的函数&＃xff0c;关键的两个函数是&＃xff1a;__len__()和__getitem__();
__getitem__()实际是python支持的一个迭代器函数&＃xff0c;编写时每次返回一个sample&＃xff0c;不需要定义batch size&＃xff0c;之后的DataLoader会自动帮忙读取数据组成batch的&＃xff1b;
举个栗子&＃xff1a;

class MyDataset(Dataset):def __init__(self,data):self.data &＃61; datadef __len__(self):return len(self.data)def __getitem__(self):return self.datadef output(self):print(&＃39;output&＃39;)

3. 初始化Dataset和DataLoader类&＃xff1a;

DataLoader的参数可参考&＃xff1a;https://blog.csdn.net/zyq12345678/article/details/90268668
注意&＃xff0c;如果在Dataset中每次返回的是自己定义的数据类型&＃xff0c;或者是字典类型&＃xff0c;有时要自己编写collate_fn()函数&＃xff0c;告诉系统如何返回一个batch。
举个栗子&＃xff1a;

dataset &＃61; MyDataset(data) dataloader &＃61; DataLoader(dataset,batch_size &＃61; 2,num_workers &＃61; 8,collate_fn &＃61; collate_fn,pin_memory &＃61; True ) # 返回数据结构较复杂&＃xff0c;包括自定义数据类型或字典时 def collate_fn(batch):data &＃61; list(batch)return (data)
如果遇到类似报错&＃xff1a;

TypeError: can&＃39;t pickle _thread._local objects

请将DataLoader中的num_workers参数设置为0&＃xff0c;关闭多线程。原因可能是无法自动多线程处理复杂的数据类型。

4. 访问Dataloader内的Dataset类函数

举个栗子&＃xff1a;

for step, batch in enumerate(dataloader):dataloader.dataset.output()

推荐阅读

python
找出字符串中重复字符

2019独角兽企业重金招聘Python工程师标准packagejavaBasic;importjava.util.HashMap;importjava.util.Map; ... [详细]

蜡笔小新 2024-09-30 11:23:11
python
以下不是python文件读写方法的是Python 文件I/O

Python文件IO本章只讲述所有基本的IO函数，更多函数请参考Python标准文档。打印到屏幕最简单的输出方法是用print语句，你可以给它传递 ... [详细]

蜡笔小新 2024-09-30 14:49:29
object
Java 中的 FileStore getUsableSpace()方法，带示例

Java中的FileStoregetUsableSpace()方法，带示例 ... [详细]

蜡笔小新 2024-09-30 12:40:44
python
python元类、反射及双线方法

元类print(type(abc))print(type(True))print(type(100))print(type([1,2,3]))print(type({na ... [详细]

蜡笔小新 2024-09-30 10:42:20
python
python 类方法和静态方法总结

前言：方法:方法是动态的是对象的行为，比如一个人可以跑，跳，是指具体做了什么动作或者行为属性:属性是固有的是对象本身多携带的 ... [详细]

蜡笔小新 2024-09-29 16:30:10
object
Flex中使用filter过滤数据

Flex中使用filter过滤数据 ... [详细]

蜡笔小新 2024-09-29 14:51:58
python
接口自动化相关面试题

你好，我是懂Java的测试最近辅导简历，有同学向我反馈，自学过接口自动化、没有落地接口自动化项目办？还有很多同学落地实践过自 ... [详细]

蜡笔小新 2024-09-29 12:34:29
object
黑马程序员——OC语言——内存管理

———Java培训、Android培训、iOS培训、.Net培训、期待与您交流！———一、引用计数器每个OC对象都有自己的引用计数器，表示“对象被引用 ... [详细]

蜡笔小新 2024-09-28 12:42:08
object
三层框架思想

本博客是本人的一些小结，如有纰漏，欢迎拍砖。首先若是想做大项目的话，不要觉的框架写着没有用，而不写，先把框架写好，以后有需要的时候才可以填充这个框架，项目才可以做大。 ... [详细]

蜡笔小新 2024-09-26 12:49:37
object
Java：多线程，java.util.concurrent.atomic包之AtomicInteger/AtomicLong用法

1.背景java.util.concurrent.atomic这个包是非常实用，解决了我们以前自己写一个同步方法来实现类似于自增长字段的问题。在Java语言中，增量操作符（++）不是原子的， ... [详细]

蜡笔小新 2024-09-30 21:25:22
python
Python多线程的执行顺序及状态

importthreadingimporttimeclassMyThread(threading.Thread):defrun(self): ... [详细]

蜡笔小新 2024-09-30 18:47:02
object
Gson转换json数据为对象

可以通过Gson使用两种方法，将json字符串转换为对象，以下面该段报文做测试{id:84041462,lastName:小华,age:32 ... [详细]

蜡笔小新 2024-09-30 16:59:45
python
linux 系统运行python链接msyql，导入mysqldb包报ImportError: libmysqlclient.so.18: cannot open shared object fil

linux7.2python2.7.5解决方案：root用户查找系统文件：find-namelibmysqlclient.so.18未发现libmysqlclient.so.18使 ... [详细]

蜡笔小新 2024-09-30 14:20:38
python
在JAVA代码的不同部分多次使用数组列表

我正在使用数组列表通过构建一个交互式菜单供用户选择来存储来自用户输入的值。到目前为止，我的两个选择是为用户提供向列表输入数据和读取列表的全部内容。到目前为止，我创建的代码由两个类组成。 ... [详细]

蜡笔小新 2024-09-30 10:25:00
object
C#学习教程：C＃按值复制数组分享

C＃按值复制数组我有一个类型化的数组MyType[]types;我想制作这个数组的独立副本。我试过这个MyType[]types2newMyType[types.Length];t ... [详细]

蜡笔小新 2024-09-29 13:08:34

只爱裙装

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章