当前位置: 开发笔记 > 编程语言 > 正文

十分钟搞懂Pytorch如何读取MNIST数据集

作者：奕殫的泪 | 来源：互联网 | 2023-09-16 13:17

前言本文用于记录使用pytorch读取minist数据集的过程，以及一些思考和疑惑吧…正文在阅读教程书籍《深度学习入门之Pytorch》时，文中是如此加载MNIST手写数字训练集的

前言

本文用于记录使用pytorch读取minist数据集的过程，以及一些思考和疑惑吧…

正文

在阅读教程书籍《深度学习入门之Pytorch》时，文中是如此加载MNIST手写数字训练集的：

train_dataset = datasets.MNIST(root='./MNIST',train=True,transform=data_tf,download=True)

解释一下参数

datasets.MNIST是Pytorch的内置函数torchvision.datasets.MNIST，通过这个可以导入数据集。

train=True 代表我们读入的数据作为训练集（如果为true则从training.pt创建数据集，否则从test.pt创建数据集）

transform则是读入我们自己定义的数据预处理操作

download=True则是当我们的根目录（root）下没有数据集时，便自动下载。

如果这时候我们通过联网自动下载方式download我们的数据后，它的文件路径是以下形式：

在这里插入图片描述

其中我们所需要的文件主要在raw文件夹下

train-images-idx3-ubyte.gz: training set images (9912422 bytes) train-labels-idx1-ubyte.gz: training set labels (28881 bytes) t10k-images-idx3-ubyte.gz: test set images (1648877 bytes) t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes)

接下来，书中是如此加载数据集的

train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=5, shuffle=True)

由于DataLoader为Pytorch内部封装好的函数，所以对于它的调用方法需要自行去查阅。

我在最开始疑惑的点：传入的根目录在下载好数据集后，为MNIST下两个文件夹，而processed和raw文件夹下还有诸多文件，所以到底是如何读入数据的呢？所以我决定将数据集下载后，通过读取本地的MINIST数据集并进行装载。

首先，自定义数据类来继承和重写Dataset抽象类

class DealDataset(Dataset): """ 读取数据、初始化数据 """ def __init__(self, folder, data_name, label_name,transform=None): (train_set, train_labels) = self.load_data(folder, data_name, label_name) # 其实也可以直接使用torch.load(),读取之后的结果为torch.Tensor形式 self.train_set = train_set self.train_labels = train_labels self.transform = transform def __getitem__(self, index): img, target = self.train_set[index], int(self.train_labels[index]) if self.transform is not None: img = self.transform(img) return img, target def __len__(self): return len(self.train_set) ''' load_data也是我们自定义的函数，用途：读取数据集中的数据 ( 图片数据+标签label ''' def load_data(self,data_folder, data_name, label_name): with gzip.open(os.path.join(data_folder,label_name), 'rb') as lbpath: # rb表示的是读取二进制数据 y_train = np.frombuffer(lbpath.read(), np.uint8, offset=8) with gzip.open(os.path.join(data_folder,data_name), 'rb') as imgpath: x_train = np.frombuffer( imgpath.read(), np.uint8, offset=16).reshape(len(y_train), 28, 28) return (x_train, y_train)

接下来，调用我们自定义的数据类来加载数据集

trainDataset = DealDataset('./MNIST/MNIST/raw', "train-images-idx3-ubyte.gz","train-labels-idx1-ubyte.gz",transform=transforms.ToTensor()) # 训练数据和测试数据的装载 train_loader = torch.utils.data.DataLoader( dataset=trainDataset, batch_size=10, # 一个批次可以认为是一个包，每个包中含有10张图片 shuffle=False, )

通过这种方式便可以大概了解了读取数据集的过程。

接下来，我们来验证以下我们数据是否正确加载

# 实现单张图片可视化 images, labels = next(iter(train_loader)) img = torchvision.utils.make_grid(images) img = img.numpy().transpose(1, 2, 0) std = [0.5, 0.5, 0.5] mean = [0.5, 0.5, 0.5] img = img * std + mean print(labels) plt.imshow(img) plt.show()

p.s.:其实这里是用cv2.imshow来展示图片，但是我的代码是在jupyter notebook上写的，所以只能通过plt来代替加载。
在这里插入图片描述

数据加载成功~

深入探索

可以看到，在load_data函数中

y_train = np.frombuffer(lbpath.read(), np.uint8, offset=8)

这个offset=8又是为啥呢？
我们进入MNIST数据集的官方页面进行查看
在这里插入图片描述

通过文档介绍，可以看到
offset的0000-0003是 magic number，所以跳过不读，
offset的0004-0007是items数目
接下来这些代表的就是标签

同理对于

x_train = np.frombuffer( imgpath.read(), np.uint8, offset=16).reshape(len(y_train)

在这里插入图片描述

根据刚才的分析方法，也可以明白为什么offset=16了

完整代码

1.直接使用pytorch自带的mnist数据集加载

import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from torchvision import datasets, transforms import torchvision from torch.autograd import Variable from torch.utils.data import DataLoader import cv2 import matplotlib.pyplot as plt data_tf = transforms.Compose( [transforms.ToTensor(), transforms.Normalize([0.5],[0.5])] ) train_dataset = datasets.MNIST(root='./coding/learning/lrdata/MNIST',train=True,transform=data_tf,download=True) train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=5, shuffle=True) # 实现单张图片可视化 images, labels = next(iter(train_loader)) img = torchvision.utils.make_grid(images) img = img.numpy().transpose(1, 2, 0) std = [0.5, 0.5, 0.5] mean = [0.5, 0.5, 0.5] img = img * std + mean print(labels) plt.imshow(img) plt.show()

p.s.:记得自己修改root根目录。

2.使用自定义的数据类加载本地MNIST数据集

import numpy as np import torch from torch.utils.data import DataLoader,Dataset from torchvision import transforms import gzip import os import torchvision import cv2 import matplotlib.pyplot as plt class DealDataset(Dataset): """ 读取数据、初始化数据 """ def __init__(self, folder, data_name, label_name,transform=None): (train_set, train_labels) = load_data(folder, data_name, label_name) # 其实也可以直接使用torch.load(),读取之后的结果为torch.Tensor形式 self.train_set = train_set self.train_labels = train_labels self.transform = transform def __getitem__(self, index): img, target = self.train_set[index], int(self.train_labels[index]) if self.transform is not None: img = self.transform(img) return img, target def __len__(self): return len(self.train_set) def load_data(data_folder, data_name, label_name): with gzip.open(os.path.join(data_folder,label_name), 'rb') as lbpath: # rb表示的是读取二进制数据 y_train = np.frombuffer(lbpath.read(), np.uint8, offset=8) with gzip.open(os.path.join(data_folder,data_name), 'rb') as imgpath: x_train = np.frombuffer( imgpath.read(), np.uint8, offset=16).reshape(len(y_train), 28, 28) return (x_train, y_train) trainDataset = DealDataset('./coding/learning/lrdata/MNIST/MNIST/raw', "train-images-idx3-ubyte.gz","train-labels-idx1-ubyte.gz",transform=transforms.ToTensor()) # 训练数据和测试数据的装载 train_loader = torch.utils.data.DataLoader( dataset=trainDataset, batch_size=10, # 一个批次可以认为是一个包，每个包中含有10张图片 shuffle=False, ) # 实现单张图片可视化 images, labels = next(iter(train_loader)) img = torchvision.utils.make_grid(images) img = img.numpy().transpose(1, 2, 0) std = [0.5, 0.5, 0.5] mean = [0.5, 0.5, 0.5] img = img * std + mean print(labels) plt.imshow(img) plt.show()

参考

1.《深度学习入门之Pytorch》- 廖星宇
2.使用Pytorch进行读取本地的MINIST数据集并进行装载
3.顺藤摸瓜-mnist数据集的补充

在这里插入图片描述

推荐阅读

join
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
join
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
const
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
join
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
join
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
join
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
less
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
client
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
join
Python 提取和替换 Word 文档中的图片

本文介绍如何使用 Python 提取和替换 .docx 文件中的图片。.docx 文件本质上是压缩文件，通过解压可以访问其中的图片资源。此外，我们还将探讨使用第三方库 docx 的方法来简化这一过程。 ... [详细]

蜡笔小新 2024-12-26 18:52:14
join
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
callback
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
join
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
join
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
replace
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14
数组
VSCode 自定义代码片段配置：实现类似IDEA的快捷代码段（如sout或psvm）

本文详细介绍如何在VSCode中配置自定义代码片段，使其具备与IDEA相似的代码生成快捷键功能。通过具体的Java和HTML代码片段示例，展示配置步骤及效果。 ... [详细]

蜡笔小新 2024-12-25 17:10:13

奕殫的泪

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章