PyTorch数据集类和数据加载类的一些尝试

作者：拍友2502906483 | 来源：互联网 | 2023-10-10 12:11

最近在学习PyTorch, 但是对里面的数据类和数据加载类比较迷糊，可能是封装的太好大部分情况下是不需要有什么自己的操作的，不过偶然遇到一些自己导入的数据时就会遇到一些问题，因此自

最近在学习PyTorch, 但是对里面的数据类和数据加载类比较迷糊，可能是封装的太好大部分情况下是不需要有什么自己的操作的，不过偶然遇到一些自己导入的数据时就会遇到一些问题，因此自己对此做了一些小实验，小尝试。

下面给出一个常用的数据类使用方式：

def data_tf(x):
    x = np.array(x, dtype='float32') / 255 # 将数据变到 0 ~ 1 之间
    x = (x - 0.5) / 0.5 # 标准化，这个技巧之后会讲到
    x = x.reshape((-1,)) # 拉平
    x = torch.from_numpy(x)
    return x



from torchvision.datasets import MNIST # 导入 pytorch 内置的 mnist 数据
train_set = MNIST('./data', train=True, transform=data_tf, download=True) # 载入数据集，申明定义的数据变换
test_set = MNIST('./data', train=False, transform=data_tf, download=True)

其中， data_tf 并不是必须要有的，比如：

from torchvision.datasets import MNIST # 导入 pytorch 内置的 mnist 数据
train_set = MNIST('./data', train=True, download=True) # 载入数据集，申明定义的数据变换
test_set = MNIST('./data', train=False, download=True)

这里面的MNIST类是框架自带的，可以自动下载MNIST数据库， ./data 是指将下载的数据集存放在当前目录下的哪个目录下， train 这个属性 True时则在 ./data文件夹下面在建立一个 train的文件夹然后把下载的数据存放在其中，当train属性是False的时候则把下载的数据放在 test文件夹下面。

划线部分是老版本的PyTorch的处理方式，最近试了一下最新版本 PyTorch 1.0 , train为True的时候是把数据放在 ./data/processed 文件夹下面，命名为training.pt , 为False 的时候则放在 ./data/processed 文件夹下面，命名为test.pt 。

PyTorch 数据集类和数据加载类的一些尝试

这时候就出现了一个问题，如果你使用的数据集不是框架自带的那么如何使用数据类呢，这个时候就要使用 pytorch 中的 Dataset 类了。

from torch.utils.data import Dataset

我们需要重写 Dataset类，需要实现的方法为 __len__ 和 __getitem__ 这两个内置方法，这里可以看出其思想就是要重写的类需要支持按照索引查找的方法。

这里我们还是举个例子：

PyTorch 数据集类和数据加载类的一些尝试

从这个例子可以看出 mydataset就是我们自定义的 myDataset 类生成的自定义数据类对象。我们可以在myDataset类中自定义一些方法来对需要的数据进行处理。

为说明该问题另附加一个例子：

from torch.utils.data import Dataset


#需要在pytorch中使用的数据
data=[[1.1, 1.2, 1.3], [2.1, 2.2, 2.3], [3.1, 3.2, 3.3], [4.1, 4.2, 4.3], [5.1, 5.2, 5.3]]


class myDataset(Dataset):
    def __init__(self, indata):
        self.data=indata
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        return self.data[idx]


mydataset=myDataset(data)

那么又来了一个问题，我们不重写 Dataset类的话可不可以呢，经过尝试发现还真可以，如下：

PyTorch 数据集类和数据加载类的一些尝试

又如：

PyTorch 数据集类和数据加载类的一些尝试

由这个例子可以看出数据类对象可以不重写Dataset类，只要具备 __len__ __getitem__ 方法就可以。而且从这个例子我们可以看出 DataLoader 是一个迭代器，如果shuffle 设置为 True 那么在每次迭代之前都会重新排序。

同时由上面两个例子可以看出 DataLoader类会把传入的数据集合中的数据转化为 torch.tensor 类型，当然是采用默认的 DataLoader类中转化函数 transform的情况下。

这也就是说 DataLoader 默认的转化函数 transform操作为传入的[ [x, x, x], [y, y, y] ] 输出的是 [ tensor([x, x, x]), tensor([y, y, y]) ] ,

传入的是 tensor([ [x, x, x], [y, y, y] ]) 输出的是 tensor([ tensor([x, x, x]), tensor([y, y, y]) ] ), （这个例子是在 batch_size=2 的情况）。

综上，可知其实 Dataset类，和 DataLoader类其实在pytorch 计算过程中都不是一定要有的，其中Dataset类是起一个规范作用，意义在于要人们对不同的类型数据做一些初步的调整，使其支持按照索引读取，以使其可以在 DataLoader中使用。

DataLoader 是一个迭代器，可以方便的通过设置 batch_size 来实现 batch过程，transform则是对数据的一些处理。

---------------------------------------------------------------------------------------------------

上述内容更正：

import torch
import numpy as np
from torch.utils.data import Dataset
from torch.utils.data import DataLoader


#需要在pytorch中使用的数据
data=[[1.1, 1.2, 1.3], [2.1, 2.2, 2.3], [3.1, 3.2, 3.3], [4.1, 4.2, 4.3], [5.1, 5.2, 5.3]]

class myDataset(Dataset):
    def __init__(self, indata):
        self.data=indata
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        return self.data[idx]


mydataset=myDataset(data)
train_data=DataLoader(mydataset, batch_size=3, shuffle=True)

print("上文的错误操作:")

for i in train_data:
    print(i)
    print('-'*30)
print('again')
for i in train_data:
    print(i)
    print('-'*30)


#########################################


data=np.array(data)
data=torch.from_numpy(data)


mydataset=myDataset(data)
train_data=DataLoader(mydataset, batch_size=3, shuffle=True)


print("修正后的正确操作:")

for i in train_data:
    print(i)
    print('-'*30)
print('again')
for i in train_data:
    print(i)
    print('-'*30)

(base) devil@devilmaycry:/tmp$ python w.py 
上文的错误操作:
[tensor([3.1000, 4.1000, 5.1000], dtype=torch.float64), tensor([3.2000, 4.2000, 5.2000], dtype=torch.float64), tensor([3.3000, 4.3000, 5.3000], dtype=torch.float64)]
------------------------------
[tensor([1.1000, 2.1000], dtype=torch.float64), tensor([1.2000, 2.2000], dtype=torch.float64), tensor([1.3000, 2.3000], dtype=torch.float64)]
------------------------------
again
[tensor([3.1000, 5.1000, 1.1000], dtype=torch.float64), tensor([3.2000, 5.2000, 1.2000], dtype=torch.float64), tensor([3.3000, 5.3000, 1.3000], dtype=torch.float64)]
------------------------------
[tensor([2.1000, 4.1000], dtype=torch.float64), tensor([2.2000, 4.2000], dtype=torch.float64), tensor([2.3000, 4.3000], dtype=torch.float64)]


------------------------------


修正后的正确操作:
tensor([[2.1000, 2.2000, 2.3000],
        [1.1000, 1.2000, 1.3000],
        [3.1000, 3.2000, 3.3000]], dtype=torch.float64)
------------------------------
tensor([[4.1000, 4.2000, 4.3000],
        [5.1000, 5.2000, 5.3000]], dtype=torch.float64)
------------------------------
again
tensor([[5.1000, 5.2000, 5.3000],
        [4.1000, 4.2000, 4.3000],
        [3.1000, 3.2000, 3.3000]], dtype=torch.float64)
------------------------------
tensor([[2.1000, 2.2000, 2.3000],
        [1.1000, 1.2000, 1.3000]], dtype=torch.float64)
------------------------------

可以看出传入到 Dataset 中的对象必须是 torch 类型的 tensor 类型，如果传入的是list则会得出错误结果。

-----------------------------------------------------------------------------------------------------

补充：

之所以发现上面的这个错误，是因为发现了下面的代码：

import numpy as np
from torchvision.datasets import mnist # 导入 pytorch 内置的 mnist 数据
from torch.utils.data import DataLoader
#from torch.utils.data import Dataset


def data_tf(x):
    x = np.array(x, dtype='float32') / 255
    x = (x - 0.5) / 0.5 # 数据预处理，标准化
    x = x.reshape((-1,)) # 拉平
    x = torch.from_numpy(x)
    return x


#Dataset
# 重新载入数据集，申明定义的数据变换
train_set = mnist.MNIST('./data', train=True, transform=data_tf, download=True)
test_set = mnist.MNIST('./data', train=False, transform=data_tf, download=True)


train_data = DataLoader(train_set, batch_size=64, shuffle=True)
test_data = DataLoader(test_set, batch_size=128, shuffle=False)

从上面的 data_tf 函数中我们发现， Dataset对象返回的是 torch 的 tensor 对象。

推荐阅读

io
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
io
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
ip
Python多进程高效读取超大文件的技巧

本文详细介绍了如何使用Python的多进程技术来高效地分块读取超大文件，并将其输出为多个文件。通过这种方式，可以显著提高读取速度和处理效率。 ... [详细]

蜡笔小新 2024-11-14 10:59:08
io
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
io
Python 主成分分析（PCA）及其相关系数计算方法

本文详细介绍了如何使用 Python 进行主成分分析（PCA），包括数据导入、预处理、模型训练和结果可视化等步骤。通过具体的代码示例，帮助读者理解和应用 PCA 技术。 ... [详细]

蜡笔小新 2024-11-13 19:56:29
ip
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
const
利用GLSL在iOS上实现YV12到RGB的转换，并附带展示结果图像

本文介绍了如何在iOS平台上使用GLSL着色器将YV12格式的视频帧数据转换为RGB格式，并展示了转换后的图像效果。通过详细的技术实现步骤和代码示例，读者可以轻松掌握这一过程，适用于需要进行视频处理的应用开发。 ... [详细]

蜡笔小新 2024-11-06 19:18:22
io
使用Tkinter构建51Ape无损音乐爬虫UI

本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面，用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单，但在实际开发过程中由于文档不足可能会带来一些不便。 ... [详细]

蜡笔小新 2024-11-15 10:31:11
const
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
ip
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
ip
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
ip
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
join
Python多线程编程技巧与实战应用详解

Python多线程编程技巧与实战应用详解 ... [详细]

蜡笔小新 2024-11-09 20:44:15
ip
MATLAB字典学习工具箱SPAMS：稀疏与字典学习的详细介绍、配置及应用实例

SPAMS（Sparse Modeling Software）是一个强大的开源优化工具箱，专为解决多种稀疏估计问题而设计。该工具箱基于MATLAB，提供了丰富的算法和函数，适用于字典学习、信号处理和机器学习等领域。本文将详细介绍SPAMS的配置方法、核心功能及其在实际应用中的典型案例，帮助用户更好地理解和使用这一工具箱。 ... [详细]

蜡笔小新 2024-11-09 16:17:27
io
如何在Java中获取当前操作系统的进程列表及其详细信息

本文探讨了如何利用Java代码获取当前本地操作系统中正在运行的进程列表及其详细信息。通过引入必要的包和类，开发者可以轻松地实现这一功能，为系统监控和管理提供有力支持。示例代码展示了具体实现方法，适用于需要了解系统进程状态的开发人员。 ... [详细]

蜡笔小新 2024-11-09 10:45:26

拍友2502906483

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章