DeepLearning（深度学习）我整理了网上与此相关的资料

作者：手浪用户2502939427_143 | 来源：互联网 | 2023-06-03 14:39

二、背景机器学习（MachineLearning）是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重

二、背景

机器学习&＃xff08;Machine Learning&＃xff09;是一门专门研究计算机怎样模拟或实现人类的学习行为&＃xff0c;以获取新的知识或技能&＃xff0c;重新组织已有的知识结构使之不断改善自身的性能的学科。机器能否像人类一样能具有学习能力呢&＃xff1f;

机器学习虽然发展了几十年&＃xff0c;但还是存在很多没有良好解决的问题&＃xff1a;

例如&＃xff1a;图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐等等。目前我们通过机器学习去解决这些问题的思路都是这样的&＃xff08;以视觉感知为例子&＃xff09;&＃xff1a;

从开始的通过传感器&＃xff08;例如CMOS&＃xff09;来获得数据。然后经过预处理、特征提取、特征选择&＃xff0c;再到推理、预测或者识别。最后一个部分&＃xff0c;也就是机器学习的部分&＃xff0c;绝大部分的工作是在这方面做的&＃xff0c;也存在很多的paper和研究。

而中间的三部分&＃xff0c;概括起来就是特征表达。良好的特征表达&＃xff0c;对最终算法的准确性起了非常关键的作用&＃xff0c;而且系统主要的计算和测试工作都耗在这一大部分。但&＃xff0c;这块实际中一般都是人工完成的。靠人工提取特征。

截止现在&＃xff0c;也出现了不少NB的特征&＃xff08;好的特征应具有不变性&＃xff08;大小、尺度和旋转等&＃xff09;和可区分性&＃xff09;&＃xff1a;例如Sift的出现&＃xff0c;是局部图像特征描述子研究领域一项里程碑式的工作。由于SIFT对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性&＃xff0c;并且SIFT具有很强的可区分性&＃xff0c;的确让很多问题的解决变为可能。但它也不是万能的。

然而&＃xff0c;手工地选取特征是一件非常费力、启发式&＃xff08;需要专业知识&＃xff09;的方法&＃xff0c;能不能选取好很大程度上靠经验和运气&＃xff0c;而且它的调节需要大量的时间。既然手工选取特征不太好&＃xff0c;那么能不能自动地学习一些特征呢&＃xff1f;答案是能&＃xff01;Deep Learning就是用来干这个事情的&＃xff0c;看它的一个别名UnsupervisedFeature Learning&＃xff0c;就可以顾名思义了&＃xff0c;Unsupervised的意思就是不要人参与特征的选取过程。

例如&＃xff0c;从原始信号摄入开始&＃xff08;瞳孔摄入像素 Pixels&＃xff09;&＃xff0c;接着做初步处理&＃xff08;大脑皮层某些细胞发现边缘和方向&＃xff09;&＃xff0c;然后抽象&＃xff08;大脑判定&＃xff0c;眼前的物体的形状&＃xff0c;是圆形的&＃xff09;&＃xff0c;然后进一步抽象&＃xff08;大脑进一步判定该物体是只气球&＃xff09;。

4.2、初级&＃xff08;浅层&＃xff09;特征表示

既然像素级的特征表示方法没有作用&＃xff0c;那怎样的表示才有用呢&＃xff1f;

有两位牛人收集了很多黑白风景照片&＃xff0c;从这些照片中&＃xff0c;提取出400个小碎片&＃xff0c;每个照片碎片的尺寸均为 16x16 像素&＃xff0c;不妨把这400个碎片标记为 S[i], i &＃61; 0,.. 399。

接下来&＃xff0c;再从这些黑白风景照片中&＃xff0c;随机提取另一个碎片&＃xff0c;尺寸也是 16x16 像素&＃xff0c;不妨把这个碎片标记为 T。

他们提出的问题是&＃xff0c;如何从这400个碎片中&＃xff0c;选取一组碎片&＃xff0c;S[k], 通过叠加的办法&＃xff0c;合成出一个新的碎片&＃xff0c;而这个新的碎片&＃xff0c;应当与随机选择的目标碎片 T&＃xff0c;尽可能相似&＃xff0c;同时&＃xff0c;S[k] 的数量尽可能少。用数学的语言来描述&＃xff0c;就是&＃xff1a;

Sum_k (a[k] * S[k]) --> T, 其中 a[k] 是在叠加碎片 S[k] 时的权重系数。

为解决这个问题&＃xff0c;两位大牛发明了一个算法&＃xff0c;稀疏编码&＃xff08;Sparse Coding&＃xff09;。

稀疏编码是一个重复迭代的过程&＃xff0c;每次迭代分两步&＃xff1a;

1&＃xff09;选择一组 S[k]&＃xff0c;然后调整 a[k]&＃xff0c;使得Sum_k (a[k] * S[k]) 最接近 T。

2&＃xff09;固定住 a[k]&＃xff0c;在 400 个碎片中&＃xff0c;选择其它更合适的碎片S’[k]&＃xff0c;替代原先的 S[k]&＃xff0c;使得Sum_k (a[k] * S’[k]) 最接近 T。

经过几次迭代后&＃xff0c;最佳的 S[k] 组合&＃xff0c;被遴选出来了。令人惊奇的是&＃xff0c;被选中的 S[k]&＃xff0c;基本上都是照片上不同物体的边缘线&＃xff0c;这些线段形状相似&＃xff0c;区别在于方向。

Bruno Olshausen和 David Field 的算法结果&＃xff0c;与 David Hubel 和Torsten Wiesel 的生理发现&＃xff0c;不谋而合&＃xff01;

也就是说&＃xff0c;复杂图形&＃xff0c;往往由一些基本结构组成。比如下图&＃xff1a;一个图可以通过用64种正交的edges&＃xff08;可以理解成正交的基本结构&＃xff09;来线性表示。比如样例的x可以用1-64个edges中的三个按照0.8,0.3,0.5的权重调和而成。而其他基本edge没有贡献&＃xff0c;因此均为0 。

另外&＃xff0c;大牛们还发现&＃xff0c;不仅图像存在这个规律&＃xff0c;声音也存在。他们从未标注的声音中发现了20种基本的声音结构&＃xff0c;其余的声音可以由这20种基本结构合成。

4.3、结构性特征表示

小块的图形可以由基本edge构成&＃xff0c;更结构化&＃xff0c;更复杂的&＃xff0c;具有概念性的图形如何表示呢&＃xff1f;这就需要更高层次的特征表示&＃xff0c;比如V2&＃xff0c;V4。因此V1看像素级是像素级。V2看V1是像素级&＃xff0c;这个是层次递进的&＃xff0c;高层表达由底层表达的组合而成。专业点说就是基basis。V1取提出的basis是边缘&＃xff0c;然后V2层是V1层这些basis的组合&＃xff0c;这时候V2区得到的又是高一层的basis。即上一层的basis组合的结果&＃xff0c;上上层又是上一层的组合basis……&＃xff08;所以有大牛说Deep learning就是“搞基”&＃xff0c;因为难听&＃xff0c;所以美其名曰Deep learning或者Unsupervised Feature Learning&＃xff09;

直观上说&＃xff0c;就是找到make sense的小patch再将其进行combine&＃xff0c;就得到了上一层的feature&＃xff0c;递归地向上learning feature。

在不同object上做training是&＃xff0c;所得的edge basis 是非常相似的&＃xff0c;但object parts和models 就会completely different了&＃xff08;那咱们分辨car或者face是不是容易多了&＃xff09;&＃xff1a;

从文本来说&＃xff0c;一个doc表示什么意思&＃xff1f;我们描述一件事情&＃xff0c;用什么来表示比较合适&＃xff1f;用一个一个字嘛&＃xff0c;我看不是&＃xff0c;字就是像素级别了&＃xff0c;起码应该是term&＃xff0c;换句话说每个doc都由term构成&＃xff0c;但这样表示概念的能力就够了嘛&＃xff0c;可能也不够&＃xff0c;需要再上一步&＃xff0c;达到topic级&＃xff0c;有了topic&＃xff0c;再到doc就合理。但每个层次的数量差距很大&＃xff0c;比如doc表示的概念->topic&＃xff08;千-万量级&＃xff09;->term&＃xff08;10万量级&＃xff09;->word&＃xff08;百万量级&＃xff09;。

一个人在看一个doc的时候&＃xff0c;眼睛看到的是word&＃xff0c;由这些word在大脑里自动切词形成term&＃xff0c;在按照概念组织的方式&＃xff0c;先验的学习&＃xff0c;得到topic&＃xff0c;然后再进行高层次的learning。

前向神经网络数字识别

假设我们的图片是28*28像素的&＃xff0c;使用最简单的神经网络进行识别&＃xff0c;如图1

图&＃xff1a;卷积神经网络的概念示范&＃xff1a;

1、输入图像通过和三个可训练的滤波器和可加偏置进行卷积&＃xff0c;滤波过程如图一&＃xff0c;

2、卷积后在C1层产生三个特征映射图&＃xff0c;

3、然后特征映射图中每组的四个像素再进行求和&＃xff0c;加权值&＃xff0c;加偏置&＃xff0c;通过Sigmoid函数得到三个S2层的特征映射图

4、这些映射图再进过滤波得到C3层。

5、这个层级结构再和S2一样产生S4。

最终&＃xff0c;这些像素值被光栅化&＃xff0c;并连接成一个向量输入到传统的神经网络&＃xff0c;得到输出。

一般地&＃xff0c;C层为特征提取层&＃xff0c;每个神经元的输入与前一层的局部感受野相连&＃xff0c;并提取该局部的特征&＃xff0c;一旦该局部特征被提取后&＃xff0c;它与其他特征间的位置关系也随之确定下来&＃xff1b;

S层是特征映射层&＃xff0c;网络的每个计算层由多个特征映射组成&＃xff0c;每个特征映射为一个平面&＃xff0c;平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数&＃xff0c;使得特征映射具有位移不变性。

此外&＃xff0c;由于一个映射面上的神经元共享权值&＃xff0c;因而减少了网络自由参数的个数&＃xff0c;降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层&＃xff08;C-层&＃xff09;都紧跟着一个用来求局部平均与二次提取的计算层&＃xff08;S-层&＃xff09;&＃xff0c;这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。

3&＃xff09;关于参数减少与权值共享

上面聊到&＃xff0c;好像CNN一个牛逼的地方就在于通过感受野和权值共享减少了神经网络需要训练的参数的个数。那究竟是啥的呢&＃xff1f;

下图左&＃xff1a;如果我们有1000x1000像素的图像&＃xff0c;有1百万个隐层神经元&＃xff0c;那么他们全连接的话&＃xff08;每个隐层神经元都连接图像的每一个像素点&＃xff09;&＃xff0c;就有1000x1000x1000000&＃61;10^12个连接&＃xff0c;也就是10^12个权值参数。然而图像的空间联系是局部的&＃xff0c;就像人是通过一个局部的感受野去感受外界图像一样&＃xff0c;每一个神经元都不需要对全局图像做感受&＃xff0c;每个神经元只感受局部的图像区域&＃xff0c;然后在更高层&＃xff0c;将这些感受不同局部的神经元综合起来就可以得到全局的信息了。这样&＃xff0c;我们就可以减少连接的数目&＃xff0c;也就是减少神经网络需要训练的权值参数的个数了。如下图右&＃xff1a;假如局部感受野是10x10&＃xff0c;隐层每个感受野只需要和这10x10的局部图像相连接&＃xff0c;所以1百万个隐层神经元就只有一亿个连接&＃xff0c;即10^8个参数。比原来减少了四个0&＃xff08;数量级&＃xff09;&＃xff0c;这样训练起来就没那么费力了&＃xff0c;但还是感觉很多的啊&＃xff0c;那还有啥办法没&＃xff1f;

图1 全连接网络图2 局部连接网络

图1.&＃xff1a;全连接网络。如果L1层有1000×1000像素的图像&＃xff0c;L2层有1000,000个隐层神经元&＃xff0c;每个隐层神经元都连接L1层图像的每一个像素点&＃xff0c;就有1000x1000x1000,000&＃61;10^12个连接&＃xff0c;也就是10^12个权值参数。

图2.&＃xff1a;局部连接网络。L2层每一个节点与L1层节点同位置附近10×10的窗口相连接&＃xff0c;则1百万个隐层神经元就只有100w乘以100&＃xff0c;即10^8个参数。其权值连接个数比原来减少了四个数量级。

卷积神经网络另外一个特性是权值共享。例如&＃xff0c;就图2.来说&＃xff0c;权值共享&＃xff0c;不是说&＃xff0c;所有的红色线标注的连接权值相同。而是说&＃xff0c;每一个颜色的线都有一个红色线的权值与之相等&＃xff0c;所以第二层的每个节点&＃xff0c;其从上一层进行卷积的参数都是相同的。

我们知道&＃xff0c;隐含层的每一个神经元都连接10x10个图像区域&＃xff0c;也就是说每一个神经元存在10x10&＃61;100个连接权值参数。那如果我们每个神经元这100个参数是相同的呢&＃xff1f;也就是说每个神经元用的是同一个卷积核去卷积图像。这样我们就只有多少个参数&＃xff1f;&＃xff1f;只有100个参数啊&＃xff01;&＃xff01;&＃xff01;亲&＃xff01;不管你隐层的神经元个数有多少&＃xff0c;两层间的连接我只有100个参数啊&＃xff01;亲&＃xff01;这就是权值共享啊&＃xff01;亲&＃xff01;这就是卷积神经网络的主打卖点啊&＃xff01;亲&＃xff01;&＃xff08;有点烦了&＃xff0c;呵呵&＃xff09;也许你会问&＃xff0c;这样做靠谱吗&＃xff1f;为什么可行呢&＃xff1f;这个……共同学习。

好了&＃xff0c;你就会想&＃xff0c;这样提取特征也忒不靠谱吧&＃xff0c;这样你只提取了一种特征啊&＃xff1f;对了&＃xff0c;真聪明&＃xff0c;我们需要提取多种特征对不&＃xff1f;假如一种滤波器&＃xff0c;也就是一种卷积核就是提出图像的一种特征&＃xff0c;例如某个方向的边缘。那么我们需要提取不同的特征&＃xff0c;怎么办&＃xff0c;加多几种滤波器不就行了吗&＃xff1f;对了。所以假设我们加到100种滤波器&＃xff0c;每种滤波器的参数不一样&＃xff0c;表示它提出输入图像的不同特征&＃xff0c;例如不同的边缘。这样每种滤波器去卷积图像就得到对图像的不同特征的放映&＃xff0c;我们称之为Feature Map。所以100种卷积核就有100个Feature Map。这100个Feature Map就组成了一层神经元。到这个时候明了了吧。我们这一层有多少个参数了&＃xff1f;100种卷积核x每种卷积核共享100个参数&＃61;100x100&＃61;10K&＃xff0c;也就是1万个参数。才1万个参数啊&＃xff01;亲&＃xff01;&＃xff08;又来了&＃xff0c;受不了了&＃xff01;&＃xff09;见下图右&＃xff1a;不同的颜色表达不同的滤波器。

嘿哟&＃xff0c;遗漏一个问题了。刚才说隐层的参数个数和隐层的神经元个数无关&＃xff0c;只和滤波器的大小和滤波器种类的多少有关。那么隐层的神经元个数怎么确定呢&＃xff1f;它和原图像&＃xff0c;也就是输入的大小&＃xff08;神经元个数&＃xff09;、滤波器的大小和滤波器在图像中的滑动步长都有关&＃xff01;例如&＃xff0c;我的图像是1000x1000像素&＃xff0c;而滤波器大小是10x10&＃xff0c;假设滤波器没有重叠&＃xff0c;也就是步长为10&＃xff0c;这样隐层的神经元个数就是(1000x1000 )/ (10x10)&＃61;100x100个神经元了&＃xff0c;假设步长是8&＃xff0c;也就是卷积核会重叠两个像素&＃xff0c;那么……我就不算了&＃xff0c;思想懂了就好。注意了&＃xff0c;这只是一种滤波器&＃xff0c;也就是一个Feature Map的神经元个数哦&＃xff0c;如果100个Feature Map就是100倍了。由此可见&＃xff0c;图像越大&＃xff0c;神经元个数和需要训练的权值参数个数的贫富差距就越大。

需要注意的一点是&＃xff0c;上面的讨论都没有考虑每个神经元的偏置部分。所以权值个数需要加1 。这个也是同一种滤波器共享的。

总之&＃xff0c;卷积网络的核心思想是将&＃xff1a;局部感受野、权值共享&＃xff08;或者权值复制&＃xff09;以及时间或空间亚采样这三种结构思想结合起来获得了某种程度的位移、尺度、形变不变性。

CNN中感受野的计算

感受野&＃xff08;receptive field&＃xff09;是怎样一个东西呢&＃xff0c;从CNN可视化的角度来讲&＃xff0c;就是输出featuremap某个节点的响应对应的输入图像的区域就是感受野。

比如我们第一层是一个3*3的卷积核&＃xff0c;那么我们经过这个卷积核得到的featuremap中的每个节点都源自这个3*3的卷积核与原图像中3*3的区域做卷积&＃xff0c;那么我们就称这个featuremap的节点感受野大小为3*3

如果再经过pooling层&＃xff0c;假定卷积层的stride是1&＃xff0c;pooling层大小2*2&＃xff0c;stride是2&＃xff0c;那么pooling层节点的感受野就是5*5

有几点需要注意的是&＃xff0c;padding并不影响感受野&＃xff0c;stride只影响下一层featuremap的感受野&＃xff0c;size影响的是该层的感受野。

至于如何计算感受野&＃xff0c;我的建议是top to down的方式。下面我拿一个例子来算算

那下面咱们也用这个例子来说明下。

CNN通过local receptive fields&＃xff08;感受野&＃xff09;&＃xff0c;shared weights&＃xff08;共享权值&＃xff09;&＃xff0c;sub-sampling&＃xff08;下采样&＃xff09;概念来解决上述三个问题。

LeNet-5是一个数字手写系统&＃xff0c;其结构图如下&＃xff0c;是一个多层结构

图&＃xff1a;卷积和子采样过程&＃xff1a;

卷积过程包括&＃xff1a;用一个可训练的滤波器f_x去卷积一个输入的图像&＃xff08;第一阶段是输入的图像&＃xff0c;后面的阶段就是卷积特征map了&＃xff09;&＃xff0c;然后加一个偏置b_x&＃xff0c;得到卷积层C_x。

子采样过程包括&＃xff1a;每邻域四个像素求和变为一个像素&＃xff0c;然后通过标量W_x&＃43;1加权&＃xff0c;再增加偏置b_x&＃43;1&＃xff0c;然后通过一个sigmoid激活函数&＃xff0c;产生一个大概缩小四倍的特征映射图S_x&＃43;1。

所以从一个平面到下一个平面的映射可以看作是作卷积运算&＃xff0c;S-层可看作是模糊滤波器&＃xff0c;起到二次特征提取的作用。隐层与隐层之间空间分辨率递减&＃xff0c;而每层所含的平面数递增&＃xff0c;这样可用于检测更多的特征信息。

C3层也是一个卷积层&＃xff0c;它同样通过5x5的卷积核去卷积层S2&＃xff0c;然后得到的特征map就只有10x10个神经元&＃xff0c;但是它有16种不同的卷积核&＃xff0c;所以就存在16个特征map了。这里需要注意的一点是&＃xff1a;C3中的每个特征map是连接到S2中的所有6个或者几个特征map的&＃xff0c;表示本层的特征map是上一层提取到的特征map的不同组合&＃xff08;这个做法也并不是唯一的&＃xff09;。&＃xff08;看到没有&＃xff0c;这里是组合&＃xff0c;就像之前聊到的人的视觉系统一样&＃xff0c;底层的结构构成上层更抽象的结构&＃xff0c;例如边缘构成形状或者目标的部分&＃xff09;。

刚才说C3中每个特征图由S2中所有6个或者几个特征map组合而成。为什么不把S2中的每个特征图连接到每个C3的特征图呢&＃xff1f;原因有2点。第一&＃xff0c;不完全的连接机制将连接的数量保持在合理的范围内。第二&＃xff0c;也是最重要的&＃xff0c;其破坏了网络的对称性。由于不同的特征图有不同的输入&＃xff0c;所以迫使他们抽取不同的特征&＃xff08;希望是互补的&＃xff09;。

例如&＃xff0c;存在的一个方式是&＃xff1a;C3的前6个特征图以S2中3个相邻的特征图子集为输入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。这样C3层有1516个可训练参数和151600个连接。

S4层是一个下采样层&＃xff0c;由16个5*5大小的特征图构成。特征图中的每个单元与C3中相应特征图的2*2邻域相连接&＃xff0c;跟C1和S2之间的连接一样。S4层有32个可训练参数&＃xff08;每个特征图1个因子和一个偏置&＃xff09;和2000个连接。

C5层是一个卷积层&＃xff0c;有120个特征图。每个单元与S4层的全部16个单元的5*5邻域相连。由于S4层特征图的大小也为5*5&＃xff08;同滤波器一样&＃xff09;&＃xff0c;故C5特征图的大小为1*1&＃xff1a;这构成了S4和C5之间的全连接。之所以仍将C5标示为卷积层而非全相联层&＃xff0c;是因为如果LeNet-5的输入变大&＃xff0c;而其他的保持不变&＃xff0c;那么此时特征图的维数就会比1*1大。C5层有48120个可训练连接。

F6层有84个单元&＃xff08;之所以选这个数字的原因来自于输出层的设计&＃xff09;&＃xff0c;与C5层全相连。有10164个可训练参数。如同经典神经网络&＃xff0c;F6层计算输入向量和权重向量之间的点积&＃xff0c;再加上一个偏置。然后将其传递给sigmoid函数产生单元i的一个状态。

最后&＃xff0c;输出层由欧式径向基函数&＃xff08;Euclidean Radial Basis Function&＃xff09;单元组成&＃xff0c;每类一个单元&＃xff0c;每个有84个输入。换句话说&＃xff0c;每个输出RBF单元计算输入向量和参数向量之间的欧式距离。输入离参数向量越远&＃xff0c;RBF输出的越大。一个RBF输出可以被理解为衡量输入模式和与RBF相关联类的一个模型的匹配程度的惩罚项。用概率术语来说&＃xff0c;RBF输出可以被理解为F6层配置空间的高斯分布的负log-likelihood。给定一个输入模式&＃xff0c;损失函数应能使得F6的配置与RBF参数向量&＃xff08;即模式的期望分类&＃xff09;足够接近。这些单元的参数是人工选取并保持固定的&＃xff08;至少初始时候如此&＃xff09;。这些参数向量的成分被设为-1或1。虽然这些参数可以以-1和1等概率的方式任选&＃xff0c;或者构成一个纠错码&＃xff0c;但是被设计成一个相应字符类的7*12大小&＃xff08;即84&＃xff09;的格式化图片。这种表示对识别单独的数字不是很有用&＃xff0c;但是对识别可打印ASCII集中的字符串很有用。

使用这种分布编码而非更常用的“1 of N”编码用于产生输出的另一个原因是&＃xff0c;当类别比较大的时候&＃xff0c;非分布编码的效果比较差。原因是大多数时间非分布编码的输出必须为0。这使得用sigmoid单元很难实现。另一个原因是分类器不仅用于识别字母&＃xff0c;也用于拒绝非字母。使用分布编码的RBF更适合该目标。因为与sigmoid不同&＃xff0c;他们在输入空间的较好限制的区域内兴奋&＃xff0c;而非典型模式更容易落到外边。

RBF参数向量起着F6层目标向量的角色。需要指出这些向量的成分是&＃43;1或-1&＃xff0c;这正好在F6 sigmoid的范围内&＃xff0c;因此可以防止sigmoid函数饱和。实际上&＃xff0c;&＃43;1和-1是sigmoid函数的最大弯曲的点处。这使得F6单元运行在最大非线性范围内。必须避免sigmoid函数的饱和&＃xff0c;因为这将会导致损失函数较慢的收敛和病态问题。

5&＃xff09;训练过程

卷积网络在本质上是一种输入到输出的映射&＃xff0c;它能够学习大量的输入与输出之间的映射关系&＃xff0c;而不需要任何输入和输出之间的精确的数学表达式&＃xff0c;只要用已知的模式对卷积网络加以训练&＃xff0c;网络就具有输入输出对之间的映射能力。卷积网络执行的是有导师训练&＃xff0c;所以其样本集是由形如&＃xff1a;&＃xff08;输入向量&＃xff0c;理想输出向量&＃xff09;的向量对构成的。所有这些向量对&＃xff0c;都应该是来源于网络即将模拟的系统的实际“运行”结果。它们可以是从实际运行系统中采集来的。在开始训练前&＃xff0c;所有的权都应该用一些不同的小随机数进行初始化。“小随机数”用来保证网络不会因权值过大而进入饱和状态&＃xff0c;从而导致训练失败&＃xff1b;“不同”用来保证网络可以正常地学习。实际上&＃xff0c;如果用相同的数去初始化权矩阵&＃xff0c;则网络无能力学习。

训练算法与传统的BP算法差不多。主要包括4步&＃xff0c;这4步被分为两个阶段&＃xff1a;

第一阶段&＃xff0c;向前传播阶段&＃xff1a;

a&＃xff09;从样本集中取一个样本(X,Y_p)&＃xff0c;将X输入网络&＃xff1b;

b&＃xff09;计算相应的实际输出O_p。

在此阶段&＃xff0c;信息从输入层经过逐级的变换&＃xff0c;传送到输出层。这个过程也是网络在完成训练后正常运行时执行的过程。在此过程中&＃xff0c;网络执行的是计算&＃xff08;实际上就是输入与每层的权值矩阵相点乘&＃xff0c;得到最后的输出结果&＃xff09;&＃xff1a;

O_p&＃61;F_n&＃xff08;…&＃xff08;F₂&＃xff08;F₁&＃xff08;X_pW^{&＃xff08;1&＃xff09;}&＃xff09;W^{&＃xff08;2&＃xff09;}&＃xff09;…&＃xff09;W^{&＃xff08;n&＃xff09;}&＃xff09;

第二阶段&＃xff0c;向后传播阶段

a&＃xff09;算实际输出O_p与相应的理想输出Y_p的差&＃xff1b;

b&＃xff09;按极小化误差的方法反向传播调整权矩阵。

三、Convolutional Neural Networks卷积神经网络

3.1、Convolution Layers卷积层

我们现在关注网络中卷积层的BP更新。在一个卷积层&＃xff0c;上一层的特征maps被一个可学习的卷积核进行卷积&＃xff0c;然后通过一个激活函数&＃xff0c;就可以得到输出特征map。每一个输出map可能是组合卷积多个输入maps的值&＃xff1a;

图2

2、网络初始化

CNN的初始化主要是初始化卷积层和输出层的卷积核&＃xff08;权重&＃xff09;和偏置&＃xff0c;DeepLearnToolbox里面对卷积核和权重进行随机初始化&＃xff0c;而对偏置进行全0初始化。

3、前向传输计算

　　前向计算时&＃xff0c;输入层、卷积层、采样层、输出层的计算方式不相同。

　　3.1 输入层&＃xff1a;输入层没有输入值&＃xff0c;只有一个输出向量&＃xff0c;这个向量的大小就是图片的大小&＃xff0c;即一个28*28矩阵;

　　3.2 卷积层&＃xff1a;卷积层的输入要么来源于输入层&＃xff0c;要么来源于采样层&＃xff0c;

卷积层的每一个map都有一个大小相同的卷积核&＃xff0c;Toolbox里面是5*5的卷积核。

下面是一个示例&＃xff0c;为了简单起见&＃xff0c;卷积核大小为2*2&＃xff0c;上一层的特征map大小为4*4&＃xff0c;用这个卷积在图片上滚一遍&＃xff0c;得到一个一个(4-2&＃43;1)*&＃xff08;4-2&＃43;1&＃xff09;&＃61;3*3的特征map&＃xff0c;卷积核每次移动一步&＃xff0c;

因此。在Toolbox的实现中&＃xff0c;卷积层的一个map与上层的所有map都关联&＃xff0c;如上图的S2和C3&＃xff0c;即C3共有6*12个卷积核&＃xff0c;卷积层的每一个特征map是不同的卷积核在前一层所有map上作卷积并将对应元素累加后加一个偏置&＃xff0c;再求sigmod得到的。

还有需要注意的是&＃xff0c;卷积层的map个数是在网络初始化指定的&＃xff0c;而卷积层的map的大小是由卷积核和上一层输入map的大小决定的&＃xff0c;假设上一层的map大小是n*n、卷积核的大小是k*k&＃xff0c;则该层的map大小是(n-k&＃43;1)*(n-k&＃43;1)&＃xff0c;比如上图的24*24的map大小24&＃61;&＃xff08;28-5&＃43;1&＃xff09;。

　　图3

　　3.3 采样层&＃xff08;subsampling,Pooling&＃xff09;&＃xff1a;采样层是对上一层map的一个采样处理&＃xff0c;这里的采样方式是对上一层map的相邻小区域进行聚合统计&＃xff0c;区域大小为scale*scale&＃xff0c;有些实现是取小区域的最大值&＃xff0c;而ToolBox里面的实现是采用2*2小区域的均值。注意&＃xff0c;卷积的计算窗口是有重叠的&＃xff0c;而采用的计算窗口没有重叠&＃xff0c;ToolBox里面计算采样也是用卷积(conv2(A,K,&＃39;valid&＃39;))来实现的&＃xff0c;卷积核是2*2&＃xff0c;每个元素都是1/4&＃xff0c;去掉计算得到的卷积结果中有重叠的部分&＃xff0c;即&＃xff1a; &＃xfeff;&＃xfeff;