一文搞定Pytorch+CNN讲解

作者：晴华姐姐_286 | 来源：互联网 | 2023-08-19 16:03

在折腾过各种神经网络框架之后，我决定入Pytorch坑。如果你是科研或者学习之用，强烈推荐Pytorch，如果是工业使用，需要大规模部署，请转Tensorflow。Pytorch简

在折腾过各种神经网络框架之后，我决定入Pytorch坑。

如果你是科研或者学习之用，强烈推荐Pytorch，如果是工业使用，需要大规模部署，请转Tensorflow。

Pytorch简单入门

Pytorch中最重要的就是Variable模块，该模块集成了围绕一个张量所有的操作，包括前向传播、反向传播的各种求偏导数的数值。
Pytorch所有的网络在nn包里，我们待会会实现经典的Lenet5模型。
Pytorch计算GPU和CPU切换很快，直接使用x.cuda()即可

Lenet5模型的实现：

网上的Lenet5已经烂大街了，为什么还要讲一下呢？原因在于今天我在学习经典的神经网络的时候，发现Lenet5论文中在卷积层之后直接得到120个全连接层，我就一直在考虑120是哪来的？问了很多人，都没有回答我，问了师兄，师兄直接说看ufldl去。于是自己做实验，一步一步研究，终于得出了结果120是你随便设的！如果你和我一样，开始不知道为啥，看了我这篇文章就懂了，涉及概念比较多，我们先剖析代码，用到什么，就解决什么。

导入各种库

import torch from torch.autograd import Variable import numpy as np import torch.nn as nn from torchvision import datasets,transforms

Variable是Pytorch数据格式模块
nn是神经网络模块
torchvision是Pytorch的外围库，该库包含了各种关于图像的各种功能函数

读取模型

train_dataset = datasets.MNIST('data/',download=False,train=True, transform=transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)), ])) test_dataset = datasets.MNIST('data/',download=False, transform=transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)), ]))

我们使用MNIST数据集，一定要记得，该数据集的大小为28*28，通道为1(黑白)。
transform表示了对数据集进行的操作，包括了转成张量，以及规则话，说道理，如果不进行的话，也没有关系，至于(0.1307,), (0.3081,)怎么来的，我也不知道，抄的官网的。

建立数据集迭代器：

train_loader = torch.utils.data.DataLoader(train_dataset,batch_size=64,shuffle=True) test_loader = torch.utils.data.DataLoader(test_dataset,batch_size=64,shuffle=True)

Pytorch中，训练最好使用迭代器来进行，不然数据集大，内存吃不消，如果你不知道迭代器是什么（手动再见）
我们使用的batch_size为64，有的人好奇为什么使用64，或者32，我的理解是这样的，当我们的数据大小为2的幂次数，计算机会计算的特别快，因为计算机是二进制嘛，如果是2的幂次数的话，计算机很容易通过移位来进行计算。
shuffle(打乱)将数据集打乱。

建立神经网络

首先我们要实现Lenet5模型，请看(http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf)

《一文搞定Pytorch+CNN讲解》

有没有发现问题？

最大的问题就是，我们的数据集明明是28*28的，怎么在论文中变成32*32了？
按照论文的标记，C表示卷积，S表示池化，但是在S4到C5应该是卷积，怎么变成了全连接层了？

是不是同学们都有这个疑问呢？

解答：原因在于使用了padding技术（具体请参考cs231nhttp://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture5.pdf）

《一文搞定Pytorch+CNN讲解》

这样的话，如果使用了28*28，我填充2个0，左边2个，右边2个，不就是成了32了吗？

论文使用的卷积核都是为5*5的，那么根据上图的逻辑，下面的层数应该是这样的：

28*28*1输入,首先padding=2，变成32*32*1
6个卷积核输出 6@28*28，（28=32-5+1）步长为1
池化输出 6@14*14，池化步长为2
16卷积核输出16@10*10
池化 16@5*5

关键点来了：根据论文的实现，下一层应该是卷积，使用了120个卷积核，也就是120@1*1（1=5-5+1），可以发现，进行卷积以后，变成了全连接层，（非常重要，如果不能理解，卷积神经网络展开成全连接就不懂。）同时，我查看了网友的解答，很多朋友在这里说可以将其看成全链接，也就是在S4的时候，下一步直接展开，为（16*5*5=400个神经元，然后在全连接到120个神经元），经过试验，这是正确的，我们待会来看如何试验。

接下来的全连接就简单了，先是120到84的全连接（这里是84的解释）：

输出层由欧式径向基函数（Euclidean Radial Basis Function）单元组成，每类一个单元，每个有84个输入。换句话说，每个输出RBF单元计算输入向量和参数向量之间的欧式距离。输入离参数向量越远，RBF输出的越大。一个RBF输出可以被理解为衡量输入模式和与RBF相关联类的一个模型的匹配程度的惩罚项。用概率术语来说，RBF输出可以被理解为F6层配置空间的高斯分布的负log-likelihood。给定一个输入模式，损失函数应能使得F6的配置与RBF参数向量（即模式的期望分类）足够接近。这些单元的参数是人工选取并保持固定的（至少初始时候如此）。这些参数向量的成分被设为-1或1。虽然这些参数可以以-1和1等概率的方式任选，或者构成一个纠错码，但是被设计成一个相应字符类的7*12大小（即84）的格式化图片。这种表示对识别单独的数字不是很有用，但是对识别可打印ASCII集中的字符串很有用。

然后就是输出类别84到10的输出。到这里，每一层都讲解完了。

首先我们来实现论文中的网络结构（S4到C5采用卷积神经网络）

class Net(nn.Module): def __init__(self): super(Net,self).__init__() self.conv1 = nn.Conv2d(1, 6, kernel_size=5,padding=2) self.conv2 = nn.Conv2d(6, 16, kernel_size=5) self.conv3 = nn.Conv2d(16,120,kernel_size=5) self.mp = nn.MaxPool2d(2) self.relu = nn.ReLU() self.fc1 = nn.Linear(120,84) self.fc2 = nn.Linear(84,10) self.logsoftmax = nn.LogSoftmax() def forward(self,x): in_size = x.size(0) out = self.relu(self.mp(self.conv1(x))) out = self.relu(self.mp(self.conv2(out))) out = self.relu(self.conv3(out)) out = out.view(in_size, -1) out = self.relu(self.fc1(out)) out = self.fc2(out) return self.logsoftmax(out)

首先定义网络结构，如果对pytorch不熟悉的话，请参考Learning PyTorch with Examples
首先定义6个卷积核，padding=2，卷积核大小为5
再次定义16个，大小一样
再次定义120个，大小一样（这里的120可以随便设，当时卡了好长时间）
定义max_pooling，大小为2
定义Relu函数
定义全连接120-84
定义全连接84-10

这样，跑的效果大概在99.645%。

实现另一种网络结构（lenet5另一种解释S4到C5采用全连接）

在S4层，输出为16@5*5，那么全连接输出的话就是16*5*5=400个神经元，那么神经网络如下：

class Net(nn.Module): def __init__(self): super(Net,self).__init__() self.conv1 = nn.Conv2d(1, 6, kernel_size=5,padding=2) self.conv2 = nn.Conv2d(6, 16, kernel_size=5) self.mp = nn.MaxPool2d(2) self.relu = nn.ReLU() self.fc1 = nn.Linear(16*5*5,120) # 必须为16*5*5 self.fc2 = nn.Linear(120,84) self.fc3 = nn.Linear(84,10) self.logsoftmax = nn.LogSoftmax() def forward(self,x): in_size = x.size(0) out = self.relu(self.mp(self.conv1(x))) out = self.relu(self.mp(self.conv2(out))) out = out.view(in_size, -1) out = self.relu(self.fc1(out)) out = self.relu(self.fc2(out)) out = self.fc3(out) return self.logsoftmax(out)

这样跑下来的结果是99.567%

两者效果是差不多的，也就证明的我前面的观点：

卷积以后如果是1*1的结果，直接拿来作为全连接网络即可。整个代码在我的github中，请多多star(HadXu/machine-learning)

推荐阅读

http
DNNBrain：北师大团队出品，国内首款用于映射深层神经网络到大脑的统一工具箱...

导读深度神经网络(DNN)通过端到端的深度学习策略在许多具有挑战性的任务上达到了人类水平的性能。深度学习产生了具有多层抽象层次的数据表示;然而，它没有明确地提供任何关 ... [详细]

蜡笔小新 2024-09-26 12:34:26
format
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
range
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
client
查看tensorflowgpu能否使用GPU进行加速

运行以下代码fromtensorflow.python.clientimportdevice_libprint(device_lib.list_local_devices()) ... [详细]

蜡笔小新 2024-09-30 19:46:53
client
42VERSE & 圆圈徽章，Web3 社交的流派之争——针对两个国内案例的调研

01 行业分析本文所研究的细分赛道为：Web3应用层——社交与内容场景——DID/创新场景（以元宇宙3D空间为 ... [详细]

蜡笔小新 2024-09-29 12:10:23
client
2019 年 Firebase 峰会上发布的新功能

作者FrancisMa,HeadofProductFirebase的使命是帮助移动开发者和Web开发者迈向成功，但考虑到Firebase每个月有超过200万个活跃的应 ... [详细]

蜡笔小新 2024-09-28 08:07:01
client
【自动驾驶】second模型训练

1，数据组织：训练验证数据生成：pythoncreate_data.pynuscenes_data_prep--data_pathNU ... [详细]

蜡笔小新 2024-09-25 22:18:52
client
NLP | 一文完全搞懂序列标注算法

序列标注模型用到了长短期记忆网络（LSTM），条件随机场（CRF），Highway网络，本文循序渐进的介绍了序列标注算法，Bepatience!跟 ... [详细]

蜡笔小新 2024-09-25 18:37:30
range
深度强化学习Policy Gradient基本实现

全文共2543个字，2张图，预计阅读时间15分钟。基于值的强化学习算法的基本思想是根据当前的状态，计算采取每个动作的价值，然 ... [详细]

蜡笔小新 2024-09-25 17:01:10
range
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
range
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
range
Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程

Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程 ... [详细]

蜡笔小新 2023-10-17 21:10:23
range
S3D算法详解

S3D论文详解论文地址：RethinkingSpatiotemporalFeatureLearning:Speed-AccuracyTrade-offsinVide ... [详细]

蜡笔小新 2023-10-16 17:45:39
range
Tensorflow 训练自己的cnn模型行人识别

代码如下：#coding:utf-8importstring,os,sysimportnumpyasnpimportmatplotlib.py ... [详细]

蜡笔小新 2023-10-16 16:57:06
range
程序分析与优化9附录XLA的缓冲区指派

本章是系列文章的案例学习，不属于正篇，主要介绍了TensorFlow引入的XLA的优化算法。XLA也有很多局限性，XLA更多的是进行合并，但有时候如果参数特别多的场景下，也需要进行 ... [详细]

蜡笔小新 2023-10-16 16:17:29

晴华姐姐_286

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章