mnisttorch加载fashion_PyTorch中文手册（4）数据的加载和预处理

作者：手机用户2602917083 | 来源：互联网 | 2023-09-18 17:50

PyTorch通过torch.utils.data（包）对一般常用的数据加载进行了封装，可以很容易地实现多线程数据预读和批量加载。并且to

PyTorch通过torch.utils.data&＃xff08;包&＃xff09;对一般常用的数据加载进行了封装&＃xff0c;可以很容易地实现多线程数据预读和批量加载。并且torchvision已经预先实现了常用图像数据集&＃xff0c;包括前面使用过的CIFAR-10&＃xff0c;ImageNet、COCO、MNIST、LSUN等数据集&＃xff0c;可通过torchvision.datasets方便的调用

注&＃xff1a;torch和torchvision是两个包

Dataset&＃xff1a;将数据转化成Dataset类实现更好的读取和处理

Dataset是一个抽象类&＃xff0c;为了能够方便的读取&＃xff0c;需要将要使用的数据包装为Dataset类。自定义的Dataset需要继承它并且实现两个成员方法&＃xff1a;

__getitem__() 该方法定义用索引(0 到 len(self))获取一条数据或一个样本
__len__() 该方法返回数据集的总长度

注&＃xff1a;抽象类和接口类。抽象类是一个特殊的类&＃xff0c;它的特殊之处在于只能被继承&＃xff0c;不能被实例化。意义&＃xff1a;如果说类是从一堆对象中抽取相同的内容而来的&＃xff0c;那么抽象类就是从一堆类中抽取相同的内容而来的&＃xff0c;内容包括数据属性和函数属性。

下面我们使用kaggle上的一个竞赛bluebook for bulldozers自定义一个数据集&＃xff0c;为了方便介绍&＃xff0c;我们使用里面的数据字典来做说明&＃xff08;因为条数少&＃xff09;

import torch from torch.utils.data import Dataset # 导入抽象类Dataset import pandas as pd # 本质是使用pandas进行处理&＃xff0c;只是相当于进行了封装。# 定义一个数据集 class BulldozerDataset(Dataset):""" 数据集演示 """def __init__(self, csv_file):# 实现初始化方法&＃xff0c;在初始化的时候将数据读载入# 数据保存在self.df中self.df&＃61;pd.read_csv(csv_file)def __len__(self): # 本质替换定义了len()函数的作用# 返回df的长度return len(self.df)def __getitem__(self, idx): # 本质定义了替换iloc[]的作用# 根据 idx 返回一行数据return self.df.iloc[idx].SalePrice

至此&＃xff0c;我们的数据集已经定义完成了&＃xff0c;我们可以实例化一个对象访问它。

ds_demo&＃61; BulldozerDataset(&＃39;median_benchmark.csv&＃39;) #传入一个.csv文件

我们可以直接使用如下命令查看数据集数据

#实现了 __len__ 方法所以可以直接使用len获取数据总数 len(ds_demo) ------------------ 11573 ------------------ #用索引可以直接访问对应的数据&＃xff0c;对应 __getitem__ 方法 ds_demo[0] ------------------ 24000.0 ------------------

自定义的数据集已经创建好了&＃xff0c;下面我们使用官方提供的数据载入器&＃xff0c;读取数据

Dataloader

DataLoader为我们提供了对Dataset的读取操作&＃xff0c;常用参数有&＃xff1a;batch_size(每个batch的大小)、 shuffle(是否进行shuffle操作)、 num_workers(加载数据的时候使用几个子进程)。下面做一个简单的操作

dl &＃61; torch.utils.data.DataLoader(ds_demo, batch_size&＃61;10, shuffle&＃61;True, num_workers&＃61;0) # DataLoader返回的是一个可迭代对象&＃xff0c;我们可以使用迭代器分次获取数据 # DataLoader本质是一个类&＃xff0c;用来实现复杂的函数功能和其他功能 # .csv(原始数据)--->ds_demo(Dataset类对象)--->dl(DataLoader类对象)idata&＃61;iter(dl) # iter() 迭代函数 print(next(idata))# 更常见的用法是使用for循环对其进行遍历 for i, data in enumerate(dl):print(i,data)# 为了节约空间&＃xff0c;这里只循环一遍break ---------------------------- 0 tensor([24000., 24000., 24000., 24000., 24000., 24000., 24000., 24000., 24000.,24000.], dtype&＃61;torch.float64) # 第一个维度是batch_size&＃61;&＃61;10&＃xff0c;每一个元素其实是一个实际的数据 ----------------------------

我们已经可以通过dataset定义数据集&＃xff0c;并使用Datalorder载入和遍历数据集。除了这些以外&＃xff0c;PyTorch还提供能torchvision的计算机视觉扩展包。

torchvision 包

torchvision 是PyTorch中专门用来处理图像的库。

torchvision.datasets&＃xff1a;pytorch官方的图片数据集

torchvision.datasets 可以理解为PyTorch团队自定义的dataset&＃xff0c;这些dataset帮我们提前处理好了很多的图片数据集&＃xff0c;我们拿来就可以直接使用&＃xff1a;

MNIST
COCO
Captions
Detection
LSUN
ImageFolder
Imagenet-12
CIFAR
STL10
SVHN
PhotoTour 我们可以直接使用&＃xff0c;示例如下&＃xff1a;

import torchvision.datasets as datasets trainset &＃61; datasets.MNIST(root&＃61;&＃39;./data&＃39;, # 表示 MNIST 数据的加载的目录train&＃61;True, # 表示是否加载数据库的训练集&＃xff0c;false的时候加载测试集download&＃61;True, # 表示是否自动下载 MNIST 数据集transform&＃61;None) # 表示是否需要对数据进行预处理&＃xff0c;none为不进行预处理

torchvision.models&＃xff1a;提供常见的训练好的模型

可以加载之后&＃xff0c;直接使用&＃xff0c;或者在进行迁移学习 torchvision.models模块的子模块中包含以下模型结构。

AlexNet
VGG
ResNet
SqueezeNet
DenseNet

# 我们直接可以使用训练好的模型&＃xff0c;当然这个与datasets相同&＃xff0c;都是需要从服务器下载的 import torchvision.models as models resnet18 &＃61; models.resnet18(pretrained&＃61;True) # 调用的是定义的函数来生成模型&＃xff0c;模型类的定义还是大写

torchvision.transforms

transforms 模块提供了一般的图像转换操作类&＃xff0c;用作数据处理和数据增强

from torchvision import transforms as transforms transform &＃61; transforms.Compose([transforms.RandomCrop(32, padding&＃61;4), # 先四周填充0&＃xff0c;在把图像随机裁剪成32*32transforms.RandomHorizontalFlip(), # 图像一半的概率翻转&＃xff0c;一半的概率不翻转transforms.RandomRotation((-45,45)), # 随机旋转transforms.ToTensor(),transforms.Normalize((0.4914, 0.4822, 0.4465), (0.229, 0.224, 0.225)), # R,G,B每层的归一化用到的均值和方差 ])

肯定有人会问&＃xff1a;(0.485, 0.456, 0.406), (0.2023, 0.1994, 0.2010) 这几个数字是什么意思&＃xff1f;

官方的这个帖子有详细的说明: https://discuss.pytorch.org/t/normalization-in-the-mnist-example/457/21 这些都是根据ImageNet训练的归一化参数&＃xff0c;可以直接使用&＃xff0c;我们认为这个是固定值就可以。

推荐阅读

bit
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
ip
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
数组
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
get
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
数组
400string(99) php,PHP: 字符串Manual

addcslashes—以C语言风格使用反斜线转义字符串中的字符addslashes—使用反斜线引用字符串bin2hex—函数把包含数据的二进制字符串转换为十六进制值chop—rt ... [详细]

蜡笔小新 2024-12-15 12:31:43
settings
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
web
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
php
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
bit
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
php
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
php
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
ip
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
ip
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
java
深入理解 JMeter 定时器

本文详细介绍了JMeter中定时器的功能和使用方法，探讨了其在性能测试中的重要性，并结合实际案例解释了如何合理配置定时器以模拟真实的用户行为。文章还涵盖了定时器的执行顺序及其与其他元件的相互作用。 ... [详细]

蜡笔小新 2024-12-20 13:46:54
ip
Python并行处理：提升数据处理速度的方法与实践

本文探讨了如何利用Python进行数据处理的并行化，通过介绍Numba、多进程处理以及Pandas DataFrame上的并行操作等技术，旨在帮助开发者有效提高数据处理效率。 ... [详细]

蜡笔小新 2024-12-14 11:30:03

手机用户2602917083

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章