来源:Coursera吴恩达深度学习课程
Andrew对几个经典的神经网络结构(classic neural network architectures)论文的阅读建议为首先是AlexNet,然后是VGGNet,最后是LeNet-5。虽然有些晦涩难懂,但对于了解这些网络结构很有帮助。
下面介绍神经网络VGG,也叫作VGG-16网络。VGG-16网络没有那么多超参数,这是一种只需要专注于构建卷积层的简单网络。首先用3×3,步幅为1的过滤器构建卷积层,padding参数为same卷积中的参数。然后用一个2×2,步幅为2的过滤器构建最大池化层。因此VGG网络的一大优点是它确实简化了神经网络结构,下面具体看看这种网络结构。
假设要识别这个图像224×224×3,在最开始的两层用64个3×3的过滤器对输入图像进行卷积,输出结果是224×224×64,因为使用了same卷积,通道数量也一样。(注意这里没有画出所有的卷积层)进行第一个卷积之后得到224×224×64的特征图,接着还有一层224×224×64,得到这样2个厚度为64的卷积层,意味着我们用64个过滤器进行了两次卷积。接下来创建一个池化层,池化层将输入图像进行压缩,从224×224×64缩小到多少呢?没错,减少到112×112×64。然后又是若干个卷积层,使用129个过滤器,以及一些same卷积,我们看看输出什么结果,112×112×128。然后进行池化,可以推导出池化后的结果是这样(56×56×128)。接着再用256个相同的过滤器进行三次卷积操作,然后再池化,然后再卷积三次,再池化。如此进行几轮操作后,将最后得到的7×7×512的特征图进行全连接操作,得到4096个单元,然后进行softmax激活,输出从1000个对象中识别的结果。
VGG-16的16,就是指这个网络中包含16个卷积层和全连接层。确实是个很大的网络,总共包含约1.38亿个参数,即便以现在的标准来看都算是非常大的网络。但VGG-16的结构并不复杂,这点非常吸引人,而且这种网络结构很规整(quite uniform),都是几个卷积层后面跟着可以压缩图像大小的池化层,池化层缩小图像的高度和宽度。同时,卷积层的过滤器数量变化存在一定的规律,由64翻倍变成128,再到256和512。作者可能认为512已经足够大了,后面的层就不再翻倍了。无论如何,每一步都进行翻倍,或者说在每一组卷积层进行过滤器翻倍操作,正是设计此种网络结构的另一个简单原则(another simple principle)。这种相对一致的网络结构对研究者很有吸引力,而它的主要缺点(downside)是需要训练的特征数量非常巨大。
有些文章还介绍了VGG-19网络,它甚至比VGG-16还要大,如果你想了解更多细节,请参考幻灯片下方的论文(由Karen Simonyan和Andrew Zisserman撰写的论文)。由于VGG-16的表现几乎和VGG-19不分高下,所以很多人还是会使用VGG-16。Andrew最喜欢它的一点是:随着网络的加深,图像的高度和宽度都在以一定的规律不断缩小,每次池化后刚好缩小一半,而通道数量在不断增加,而且刚好也是在每组卷积操作后增加一倍。图像缩小的比例和通道数增加的比例是有规律的。从这个角度来看,这篇论文很吸引人。
说明:记录学习笔记,如果错误欢迎指正!转载请联系我。