当前位置: 开发笔记 > 编程语言 > 正文

pytorch——图像预处理模块（Transforms）

作者：曹莹888淑女 | 来源：互联网 | 2023-08-27 16:22

transforms运行机制torchvision是pytorch的计算机视觉工具包，在torchvision中有三个主要的模块：torchvisi

transforms运行机制

torchvision是pytorch的计算机视觉工具包&＃xff0c;在torchvision中有三个主要的模块&＃xff1a;

torchvision.transforms&＃xff0c;常用的图像预处理方法&＃xff0c;在transforms中提供了一系列的图像预处理方法&＃xff0c;例如数据的标准化&＃xff0c;中心化&＃xff0c;旋转&＃xff0c;翻转等等&＃xff1b;
torchvision.datasets&＃xff0c;定义了一系列常用的公开数据集的datasets&＃xff0c;比如常用的MNIST&＃xff0c;CIFAR-10&＃xff0c;ImageNet等等&＃xff1b;
torchvision.model&＃xff0c;提供大量常用的预训练模型&＃xff0c;例如AlexNet&＃xff0c;VGG&＃xff0c;ResNet&＃xff0c;GoogLeNet等等&＃xff1b;

transforms

torchvision.transforms&＃xff1a;常用的图像预处理方法

数据中心化
数据标准化
缩放
裁剪
旋转
翻转
填充
噪声添加
灰度变换
线性变换
仿射变换
亮度、饱和度及对比度变换

深度学习是由数据驱动的&＃xff0c;数据的数量以及分布对模型的优劣起到决定性作用&＃xff0c;所以需要对数据进行一定的预处理以及数据增强&＃xff0c;用来提升模型的泛化能力&＃xff1b;

观察下面这个图&＃xff0c;这是经过数据增强之后生成的一系列数据&＃xff0c;一共有64张图片&＃xff0c;这64张图片都来源于一张原始图片&＃xff0c;经过一系列的缩放、裁剪、平移、变换等等操作的组合&＃xff0c;生成了64张图片&＃xff1b;对图片进行数据增强的原因是为了提高模型的泛化能力&＃xff0c;类似于5年高考&＃xff0c;3年模拟的卷子&＃xff1b;5年高考的真题卷就类似于原始训练数据&＃xff0c;3年模拟就相当于做一些数据增强&＃xff0c;去丰富训练数据&＃xff1b;假如在三年模拟的卷子中出现了当年的高考题&＃xff0c;那么分数自然有所提高&＃xff1b;同样的&＃xff0c;如果我们做数据增强&＃xff0c;生成了与测试样本很相似的图片&＃xff0c;那么模型的泛化能力自然可以得到提高&＃xff0c;这就是做数据增强的原因&＃xff1b;
在这里插入图片描述
看一下代码&＃xff0c;这里使用上一篇博客介绍的人民币二分类实验的代码的数据预处理部分&＃xff0c;
数据标准化——transforms.normalize

# &＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61; step 1/5 数据 &＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61; # 这部分设置数据的路径 split_dir &＃61; os.path.join("C:/Users/10530/Desktop/pytorch/rmb_split") train_dir &＃61; os.path.join(split_dir, "train") valid_dir &＃61; os.path.join(split_dir, "valid")#设置数据标准化的均值和标准差 norm_mean &＃61; [0.485, 0.456, 0.406] norm_std &＃61; [0.229, 0.224, 0.225]# transforms.Compose的功能是将一系列的transforms方法进行有序的组合包装&＃xff0c;在具体实现的时候&＃xff0c;会依次按顺序对图像进行操作 train_transform &＃61; transforms.Compose([transforms.Resize((32, 32)), #Resize&＃xff0c;将图像缩放到32*32的大小transforms.RandomCrop(32, padding&＃61;4), #RandomCrop&＃xff0c;对数据进行随机的裁剪transforms.ToTensor(), #ToTensor&＃xff0c;将图片转成张量的形式同时会进行归一化操作&＃xff0c;把像素值的区间从0-255归一化到0-1transforms.Normalize(norm_mean, norm_std), #标准化操作&＃xff0c;将数据的均值变为0&＃xff0c;标准差变为1 ]) # Resize的功能是缩放&＃xff0c;RandomCrop的功能是裁剪&＃xff0c;ToTensor的功能是把图片变为张量#验证集的预处理的方法&＃xff0c;对比训练集&＃xff0c;少了RandomCrop这一部分&＃xff0c;因为在验证集中是不需要对数据进行数据增强的 valid_transform &＃61; transforms.Compose([transforms.Resize((32, 32)),transforms.ToTensor(),transforms.Normalize(norm_mean, norm_std), ])# 构建MyDataset实例&＃xff0c;MyDataset必须是用户自己构建的 train_data &＃61; RMBDataset(data_dir&＃61;train_dir, transform&＃61;train_transform) # data_dir是数据的路径&＃xff0c;transform是数据预处理 valid_data &＃61; RMBDataset(data_dir&＃61;valid_dir, transform&＃61;valid_transform) # 一个用于训练&＃xff0c;一个用于验证# 构建DataLoder train_loader &＃61; DataLoader(dataset&＃61;train_data, batch_size&＃61;BATCH_SIZE, shuffle&＃61;True) # shuffle&＃61;True&＃xff0c;每一个epoch中样本都是乱序的 valid_loader &＃61; DataLoader(dataset&＃61;valid_data, batch_size&＃61;BATCH_SIZE)

同样&＃xff0c;在模型训练中设置断点&＃xff0c;断点位置位于如下代码处&＃xff1a;

for i, data in enumerate(train_loader):

进行debug&＃xff0c;并点击step into进行操作&＃xff0c;在跳转后的代码中进行一个是否采用多进程的判断&＃xff1a;

def __iter__(self):if self.num_workers &＃61;&＃61; 0:return _SingleProcessDataLoaderIter(self)else:return _MultiProcessingDataLoaderIter(self)

选择单进程的运行机制&＃xff0c;进入dataloader.py界面&＃xff0c;找到def init(self)方法&＃xff0c;点击Run to Cursor&＃xff0c;程序就会运行到光标所在的行&＃xff0c;具体如下***的代码&＃xff1a;

def __next__(self):****index &＃61; self._next_index() # may raise StopIterationdata &＃61; self.dataset_fetcher.fetch(index) # may raise StopIterationif self.pin_memory:data &＃61; _utils.pin_memory.pin_memory(data)return data

这一步的作用是获取Index&＃xff0c;也就是要读取哪些数据。得到Index就可以进入dataset_fetcher.fetch(index)&＃xff0c;根据索引去获取数据&＃xff1b;进入到fetch函数&＃xff1a;

class _MapDatasetFetcher(_BaseDatasetFetcher):def __init__(self, dataset, auto_collation, collate_fn, drop_last):super(_MapDatasetFetcher, self).__init__(dataset, auto_collation, collate_fn, drop_last)def fetch(self, possibly_batched_index):if self.auto_collation:data &＃61; [self.dataset[idx] for idx in possibly_batched_index]else:data &＃61; self.dataset[possibly_batched_index]return self.collate_fn(data)

在fetch函数中&＃xff0c;代码

data &＃61; [self.dataset[idx] for idx in possibly_batched_index]

调用了dataset&＃xff0c;接着进入dataset所在的代码位置&＃xff0c;如下所示&＃xff1a;

def __getitem__(self, index):path_img, label &＃61; self.data_info[index]img &＃61; Image.open(path_img).convert(&＃39;RGB&＃39;) # 0~255if self.transform is not None:img &＃61; self.transform(img) # 在这里做transform&＃xff0c;转为tensor等等return img, label

dataest代码位于类RMBDataset(Dataset)中的def getitem()函数&＃xff0c;在getitem()中根据索引去获取图片的路径以及标签&＃xff1b;然后采用代码

img &＃61; Image.open(path_img).convert(&＃39;RGB&＃39;) # 0~255

打开图片&＃xff0c;读取进来的图片是一个PIL的数据类型&＃xff0c;然后在getitem中调用transform()进行图像预处理操作&＃xff0c;通过step_into进入transform()代码位置进行分析&＃xff0c;代码位于transform中的def call()函数

def __call__(self, img):for t in self.transforms:img &＃61; t(img)return img

call()函数是一个for循环&＃xff0c;也就是依次有序地从compose中去调用预处理方法&＃xff0c;第一个预处理方法是t(img)&＃xff0c;其功能是是Resize缩放&＃xff1b;第二个功能是裁剪&＃xff0c;第三个功能是进行张量操作&＃xff0c;第四个功能是进行归一化&＃xff1b;对compose的四个功能循环结束之后&＃xff0c;就会返回transform。

transform是在__getitem__()中调用&＃xff0c;并且在__getitem__()中实现数据预处理&＃xff0c;然后通过__getitem__返回一个样本&＃xff1b;

执行step out操作返回fetch()函数&＃xff0c;接着就是不断地循环index获取一个batch_size大小的数据&＃xff0c;最后在return的时候调用collate_fn()函数&＃xff0c;将数据整理成一个batch_data的形式。

然后执行step out操作返回到dataloader.py中的__next__()函数中&＃xff0c;然后跳出dataloader.py回到主代码当中&＃xff0c;接着数据就读取进来了。这就是pytorch数据读取和transforms的运行机制。
在这里插入图片描述
回顾上面的数据读取流程图&＃xff0c;transforms是在getitem中使用的&＃xff1b;在getitem中读取一张图片&＃xff0c;然后对这一张图片进行一系列预处理&＃xff0c;然后返回图片以及标签。

了解了transforms的机制&＃xff0c;现在学习一个比较常用的预处理方法&＃xff0c;数据的标准化transforms.Normalize&＃xff1b;

transforms.Normalize

功能&＃xff1a;逐channel的对图像进行标准化&＃xff0c;即数据的均值变为0&＃xff0c;标准差变为1
标准化的计算公式为 $o u t p u t &＃61; (i n p u t - m e a n) / s t d$
mean&＃xff1a;各通道的均值
std&＃xff1a;各通道的标准差
inplace&＃xff1a;是否原位操作

transform.Normalize(mean&＃xff0c;std,inplace&＃61;False)

回到代码中看一下normalize的具体实现方法&＃xff0c;transform是在dataset的getitem中实现的&＃xff0c;所以可以直接去dataset的getitem函数中设置断点&＃xff0c;具体如下&＃xff1a;

def __getitem__(self, index):path_img, label &＃61; self.data_info[index]img &＃61; Image.open(path_img).convert(&＃39;RGB&＃39;) # 0~255if self.transform is not None:***img &＃61; self.transform(img) # 在这里做transform&＃xff0c;转为tensor等等return img, label

代码中***标注的地方就是断点的设置位置&＃xff0c;进行debug操作&＃xff0c;点击step into进入详细代码环境&＃xff0c;进入了transforms.py中的call()函数中&＃xff0c;在call函数中循环transforms。

def __call__(self, tensor):"""Args:tensor (Tensor): Tensor image of size (C, H, W) to be normalized.Returns:Tensor: Normalized Tensor image."""return F.normalize(tensor, self.mean, self.std, self.inplace)

接着进入transforms中查看normalize的实现&＃xff0c;来到了normalize()类中的__call__()函数中&＃xff0c;代码只有一行&＃xff0c;实际上这行代码是调用了pytorch中的function中normalize方法&＃xff1b;pytorch的function提供了很多常用的函数&＃xff0c;使用step into查看normalize中的具体实现。

if not _is_tensor_image(tensor): #输入的合法性判断raise TypeError(&＃39;tensor is not a torch image.&＃39;)if not inplace: #判断是否需要原地操作tensor &＃61; tensor.clone()dtype &＃61; tensor.dtypemean &＃61; torch.as_tensor(mean, dtype&＃61;dtype, device&＃61;tensor.device)std &＃61; torch.as_tensor(std, dtype&＃61;dtype, device&＃61;tensor.device)tensor.sub_(mean[:, None, None]).div_(std[:, None, None]) #归一化公式return tensor

首先是输入的合法性判断&＃xff0c;输入的是tensor&＃xff0c;也就是原始的图像&＃xff0c;接着判断是否要原地操作&＃xff0c;如果不是inplace就需要将张量复制一份到新的内存空间中。下面的代码就是获取数据的均值和标准差&＃xff0c;并将数据转换为张量。注意在sub_和div_后面有下划线&＃xff0c;意思是进行原位操作&＃xff0c;这样就完成了数据标准化的操作。

对数据进行标准化之后可以加快模型的收敛&＃xff0c;具体可以看百面机器学习的第一章。

推荐阅读

ip
x86 linux的进程调度,x86体系结构下Linux2.6.26的进程调度和切换

进程调度相关数据结构task_structtask_struct是进程在内核中对应的数据结构，它标识了进程的状态等各项信息。其中有一项thread_struct结构的 ... [详细]

蜡笔小新 2023-10-17 18:41:38
ip
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
ip
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
ip
单击时动态创建
元素 - Dynamically create
element on click

Ihavethefollowingonhtml我在html上有以下内容<html><head><scriptsrc..3003_Tes ... [详细]

蜡笔小新 2023-12-12 15:59:36
ip
java drools5_Java Drools5.1 规则流基础【示例】（中）

五、规则文件及规则流EduInfoRule.drl:packagemyrules;importsample.Employ;ruleBachelorruleflow-group ... [详细]

蜡笔小新 2023-12-10 15:01:31
ip
tcpdump 4.5.1 crash 深入分析

tcpdump 4.5.1 crash 深入分析 ... [详细]

蜡笔小新 2023-12-09 07:11:34
ip
七月在线爬虫班学习笔记（七）——高级内容-并发编程

第七课主要内容：多进程多线程FIFO,LIFO,优先队列线程局部变量进程与线程的选择线程池异步IO概念及twisted案例股票数据抓取 ... [详细]

蜡笔小新 2023-10-17 20:16:36
ip
STM32 IO口模拟串口通讯

转自：http:ziye334.blog.163.comblogstatic224306191201452833850647前阵子，调项目时需要用到低波 ... [详细]

蜡笔小新 2023-10-17 19:54:28
ip
python字符串随机生成密码_Mac OS生成随机密码的Python脚本

很多时候在注册一些比较重要的帐号，或者使用一些比较重要的接口的时候，需要使用到随机字符串，为了方便，我们设计这个脚本需要注意 ... [详细]

蜡笔小新 2023-10-17 18:20:12
ip
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
filter
Perl的测试框架Test::Base简介及使用方法

本文介绍了Perl的测试框架Test::Base，它是一个数据驱动的测试框架，可以自动进行单元测试，省去手工编写测试程序的麻烦。与Test::More完全兼容，使用方法简单。以plural函数为例，展示了Test::Base的使用方法。 ... [详细]

蜡笔小新 2023-12-13 20:05:31
datetime
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
const
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
ip
如何优化Webpack打包后的代码分割

本文介绍了如何通过优化Webpack的代码分割来减小打包后的文件大小。主要包括拆分业务逻辑代码和引入第三方包的代码、配置Webpack插件、异步代码的处理、代码分割重命名、配置vendors和cacheGroups等方面的内容。通过合理配置和优化，可以有效减小打包后的文件大小，提高应用的加载速度。 ... [详细]

蜡笔小新 2023-12-09 08:10:47
ip
获取时间的函数js代码,js获取时区代码

本文目录一览：1、js获取服务器时间（动态）2 ... [详细]

蜡笔小新 2023-10-17 16:49:20

曹莹888淑女

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章