我将从以下几个方面来进行解说:一、卷积神经网络的结构二、卷积神经网络的计算三、以AlexNet为例进行详细讲解四、常见的两个卷积层设置的问题一、卷积神经网络的结构卷积神经网络(CN
从以下几点进行解说。
一、卷积神经网络的结构二、卷积神经网络的计算三、以AlexNet为例详细说明
四、常见的两个卷积层的设置问题
一、卷积神经网络的结构卷积神经网络(CNN )是输入层、卷积层、激活函数、池化层、所有连接层,即INPUT (输入层(-CONV )-RELU )激活函数)-POOL
二、卷积神经网络的计算卷积神将网络的计算公式设为n=(w-f2p )/S 1
(输出大小w )输入大小f )卷积核心大小p )填充值的大小s )步长大小以下是一个例子。
nn.conv2d(in_channels=3,out_channels=96,kernel_size=11,条纹=4,填充=2)在图像输入size为256x256的情况下
卷积层的几个参数:
in_channels=3:表示输入的通道数,由于是RGB型,所以通道数表示3.out_channels=96:表示输出的通道数,设定输出通道数的96 (可以根据需要设定) F=12stride=4:表示步长为4,即上面的s、S=4padding=2:表示填充值的大小为2,即上面的p、P=2
三、以AlexNet为例进行详细讲解 AlexNet网络结构图如下图所示。
从结构图中可以看到,该网络有8层。 五个卷积层,三个全连接层。 使用的框架是pytorch。 卷积神经网络的设置包括卷积层的设置和正反传播的设置。 卷积层的设定代码为self.con v1=torch.nn.sequential (# input _ size=227 * 227 * 3
torch.nn.conv2d(in_channels=3,out_channels=96,kernel_size=11,stride=4,填充=0),
torch.nn.ReLU ()、
Torch.nn.max Pool 2d (Kernel _ size=3,stride=2) #输出_ size=27 * 27 * 96
)
self.con v2=torch.nn.sequential (# input _ size=27 * 27 * 96
Torch.NN.Conv 2d (96,256,5,1,2 )、
torch.nn.ReLU ()、
torch.nn.max pool 2d (3,2 ) #输出_大小=13 * 13 * 256
)
self.con v3=torch.nn.sequential (# input _ size=13 * 13 * 256
Torch.NN.Conv 2d (256,384,3,1,1 )、
torch.nn.ReLU (,#output_size=13*13*384
)
self.con v4=torch.nn.sequential (# input _ size=13 * 13 * 384
Torch.NN.Conv 2d (384,384,3,1,1 )、
torch.nn.ReLU (,#output_size=13*13*384
)
self.con v5=torch.nn.sequential (# input _ size=13 * 13 * 384
Torch.NN.Conv 2d (384,256,3,1,1 )、
torch.nn.ReLU ()、
torch.nn.max pool 2d (3,2 ) #输出_大小=6*6* 256
)
self.dense=torch.nn
Sequential(
torch.nn.Linear(9216, 4096),
torch.nn.ReLU(),
torch.nn.Dropout(0.5),
torch.nn.Linear(4096, 4096),
torch.nn.ReLU(),
torch.nn.Dropout(0.5),
torch.nn.Linear(4096, 50)
)
1.1、卷积一层:
self.conv1 = torch.nn.Sequential( #input_size = 227*227*3
torch.nn.Conv2d(in_channels=3,out_channels=96,kernel_size=11,stride=4,padding=0),
torch.nn.ReLU(),
torch.nn.MaxPool2d(kernel_size=3, stride=2) #output_size = 27*27*96
)
由 “self.conv1 = torch.nn.Sequential( #input_size = 227*227*3” 可以看到输入为227x227x3,也就是所size为227x227的,通道数是3的RGB型图像
由计算公式,通过 “torch.nn.Conv2d(in_channels=3,out_channels=96,kernel_size=11,stride=4,padding=0)” 进行卷积,可以计算出其输出的大小为:N=(227-11+2x0)/4+1=55,即卷积后的尺寸是55x55x96
激活函数Relu,在神经网络中的作用是:通过加权的输入进行非线性组合产生非线性决策边界简单的来说就是增加非线性作用。在深层卷积神经网络中使用激活函数同样也是增加非线性,主要是为了解决sigmoid函数带来的梯度消失问题。
“torch.nn.MaxPool2d(kernel_size=3, stride=2)” 最大池化层,池化层在卷积神经网络中的作用在于特征融合和降维。池化也是一种类似的卷积操作,只是池化层的所有参数都是超参数,是学习不到的。这里的最大池化操作:将2x2尺寸内的所有像素值取最大值作为输出通道的像素值。输出大小的计算和卷积层的计算过程一样就是利用公式N=(W-F+2P)/S+1,由公式计算得知,该输出大小N=(55-3+2x0)/2+1=27,则输出为27x27x96,本层的神经元数目为27*27* 96个
1.2、卷积二层
self.conv2 = torch.nn.Sequential( #input_size = 27*27*96
torch.nn.Conv2d(96, 256, 5, 1, 2),
torch.nn.ReLU(),
torch.nn.MaxPool2d(3, 2) #output_size = 13*13*256
)
我们可以看到卷积2层的输入为27x27x96的,也就是上一层的输出,从这里也就知道,上一层的输出为下一层的输入。
卷积2层最终输出为13x13x256,本层的神经元数目为13x13x256 =43264个卷积3层最终输出为13x13x384,本层的神经元数目为13x13x384 =64896个卷积4层最终输出为13x13x384,本层的神经元数目为13x13x384 = 64896个卷积5层最终输出为6x6x256,本层的神经元数目为6x6x256=9216个
1.3、全连接层
卷积层介绍完了,下面看一下全连接层(Linear),全连接层的作用主要是负责逻辑推断,所有的参数都必须学习得到。
self.dense = torch.nn.Sequential(
torch.nn.Linear(9216, 4096),
torch.nn.ReLU(),
torch.nn.Dropout(0.5),
torch.nn.Linear(4096, 4096),
torch.nn.ReLU(),
torch.nn.Dropout(0.5),
torch.nn.Linear(4096, 50)
)
可以看到有3三层全连接层(与上面相连接,也就是第六、七、八层)
第一层全连接层(第六层)的作用有两个
第一:连接卷积层的输出第二:去除空间信息(通道数),是一种将三维矩阵转变成向量的过程(一种全卷积操作),其操作可以看成是输入图像为WxHxC,卷积核的尺寸为WxHxC,这样卷积后的尺寸为1x1x1,这样整个出入图像变成了一个数,一共有K个数(第一层全连接层后的神经元数)。
第6层输入数据的尺寸是6x6x256,采用6x6x256尺寸的滤波器对第六层的输入数据进行卷积运算;每个6x6x256尺寸的滤波器对第六层的输入数据进行卷积运算生成一个运算结果,通过一个神经元输出这个运算结果;共有4096个6x6x256尺寸的滤波器对输入数据进行卷积,通过4096个神经元的输出运算结果;然后通过ReLU激活函数以及dropout运算输出4096个本层的输出结果值。
第二层全连接层(第七层):
第6层输出的4096个数据与第7层的4096个神经元进行全连接,然后经由ReLU和Dropout进行处理后生成4096个数据。
第三层全连接层(第八层):
第7层输入的4096个数据与第8层的50个神经元进行全连接,经过训练后输出被训练的数值。
正反向传播的顺序设置代码如下:def forward(self, x): #正向传播过程
conv1_out = self.conv1(x)
conv2_out = self.conv2(conv1_out)
conv3_out = self.conv3(conv2_out)
conv4_out = self.conv4(conv3_out)
conv5_out = self.conv5(conv4_out)
res = conv5_out.view(conv5_out.size(0), -1)
out = self.dense(res)
#print (out)
return out
这里的顺序就是:
开始的数据的输入作为第一层卷积层的输入,得到第一层卷积层的输出;第一层卷积的输出作为第二层卷积层的输入,得到第二层卷积层的输出:第二层卷积的输出作为第三层卷积层的输入,得到第三层卷积层的输出:第三层卷积的输出作为第四层卷积层的输入,得到第四层卷积层的输出:第四层卷积的输出作为第五层卷积层的输入,得到第五层卷积层的输出:第五层卷积层的输出转变为一维向量形式作为第一层全连接层的输入,得到第一层全连接层的输出;第一层全连接层的输出与第二层全连接层的神经元进行全连接得到第二层全连接层的输出;第二层全连接层的输出与第三层全连接层的神经元进行全连接得到第三层全连接层的输出,也就是我们想要的参数。
四、常见的两个卷积层设置问题 self.conv1 = nn.Conv2d(3, 6, 5)问题一:为什么是cove2d?
cove1d:用于文本数据,只对宽度进行卷积,对高度不进行卷积cove2d:用于图像数据,对宽度和高度都进行卷积
问题二:为什么卷积核大小5x5写一个5?
Conv2d(输入通道数, 输出通道数, kernel_size(长和宽)),当卷积核为方形时,只写一个就可以卷积核不是方形时,长和宽都要写:
self.conv1 = nn.Conv2d(3, 6, (5,3))
问题三:池化层的作用
maxpooling有局部不变性而且可以提取显著特征的同时降低模型的参数,从而降低模型的过拟合。因为只是提取了显著特征,而舍弃了不显著的信息,使得模型的参数减少了,从而一定程度上可以缓解过拟合的产生。
https://blog.csdn.net/sinat_42239797/article/details/90646935