热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

CNN模型之VGG

这篇文章主要研究CNN模型的深度对大规模图像识别任务准确率的影响。主要贡献是在使用非常小的卷积核(3×3)结构下,对神经网络加深层数做了一个深入的评估,研究结果表明通过把层数增加到

这篇文章主要研究CNN模型的深度对大规模图像识别任务准确率的影响。

主要贡献是在使用非常小的卷积核(3×3)结构下,对神经网络加深层数做了一个深入的评估,研究结果表明通过把层数增加到16-19层,模型的效果得到了非常大的提升。

模型结构

通用的结构如下:

  • 使用非常小的卷积核:3×3(这是能够捕捉上下左右中间各个位置的最小尺寸),在有些设置下还使用了1×1卷积核
  • stride固定是1
  • 使用same padding,即卷积后保持feature map的尺度不变。例如对于3×3卷积核,padding=1
  • 使用5个Max-pooling层,不是所有卷积层后面都跟池化层。window size = 2,stride = 2。这里和AlexNet不同,AlexNet使用重叠的池化,Vgg使用不重叠的池化。
  • 卷积层后是3个全连接层,前两个是4096维的,第三个是1000维。
  • 所有隐藏层都使用ReLU。
  • LRN并不能提升性能,只会增加内从消耗和计算时间。

作者设置的几个网络的结构如下图所示:

《CNN模型之VGG》
《CNN模型之VGG》
《CNN模型之VGG》
《CNN模型之VGG》

VGG的CNN设置与ILSVRC-2012(Krizhevsky et al.)和ILSVRC-2013(Zeiler&Fergus,2013,Sermanet etal.,2014)获胜者的设置非常不同。之前的模型在第一个卷积层都使用较大的感受野,如11×11,stride=4(Krizhevsky et al.),7×7,stirde=2(Zeiler& Fergus, 2013; Sermanet et al., 2014)。VGG在整个网络中使用3×3的感受野,stride设置为1。

3×3卷积的作用
连续使用两个3×3的卷积核的感受野相当于5×5,连续使用三个3×3的卷积核的感受野相当于7×7。 那么举例来说,使用3个3×3的卷积核而不是一个7×7的卷积核的好处是什么?有两点原因:

  • 我们使用了3次非线性函数而不是1次,这样增加了函数的判别能力。
  • 这样减少了参数的数量:假设三个堆叠的3×3卷积层的输入和输出的通道数都是C,参数数目为。对于一个7×7的卷积核,参数数目为。这相当于对7×7的卷积核施加了正则化。

1×1卷积的作用
增加决策函数(decision function)的非线性,因为引入了非线性激活函数。

模型的具体实现

下面给出VGG的Pytorch实现:

class VGG(nn.Module):
def __init__(self, features, num_classes=1000):
super(VGG, self).__init__()
self.features = features
self.classifier = nn.Sequential(
nn.Linear(512 * 7 * 7, 4096),
nn.ReLU(True),
nn.Dropout(),
nn.Linear(4096, 4096),
nn.ReLU(True),
nn.Dropout(),
nn.Linear(4096, num_classes),
)
self._initialize_weights()
def forward(self, x):
x = self.features(x)
x = x.view(x.size(0), -1)
x = self.classifier(x)
return x
def _initialize_weights(self):
for m in self.modules():
if isinstance(m, nn.Conv2d):
n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
m.weight.data.normal_(0, math.sqrt(2. / n))
if m.bias is not None:
m.bias.data.zero_()
elif isinstance(m, nn.BatchNorm2d):
m.weight.data.fill_(1)
m.bias.data.zero_()
elif isinstance(m, nn.Linear):
m.weight.data.normal_(0, 0.01)
m.bias.data.zero_()
def make_layers(cfg, batch_norm=False):
layers = []
in_channels = 3
for v in cfg:
if v == 'M':
layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
else:
conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)
if batch_norm:
layers += [conv2d, nn.BatchNorm2d(v), nn.ReLU(inplace=True)]
else:
layers += [conv2d, nn.ReLU(inplace=True)]
in_channels = v
return nn.Sequential(*layers)
cfg = {
'A': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
'B': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
'D': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],
'E': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}
def vgg11(**kwargs):
""" VGG 11-layer model (configuration "A") """
model = VGG(make_layers(cfg['A']), **kwargs)
return model
def vgg13(**kwargs):
""" VGG 13-layer model (configuration "B") """
model = VGG(make_layers(cfg['B']), **kwargs)
return model
def vgg16(**kwargs):
""" VGG 16-layer model (configuration "D") """
model = VGG(make_layers(cfg['D']), **kwargs)
return model
def vgg19(**kwargs):
""" VGG 19-layer model (configuration "E") """
model = VGG(make_layers(cfg['E']), **kwargs)
return model

实验结果

《CNN模型之VGG》
《CNN模型之VGG》

参考

原文:Very Deep Convolutional Networks for Large-scale Image Recongnition


推荐阅读
  • vue使用
    关键词: ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • Oracle seg,V$TEMPSEG_USAGE与Oracle排序的关系及使用方法
    本文介绍了Oracle seg,V$TEMPSEG_USAGE与Oracle排序之间的关系,V$TEMPSEG_USAGE是V_$SORT_USAGE的同义词,通过查询dba_objects和dba_synonyms视图可以了解到它们的详细信息。同时,还探讨了V$TEMPSEG_USAGE的使用方法。 ... [详细]
  • 本文介绍了在MFC下利用C++和MFC的特性动态创建窗口的方法,包括继承现有的MFC类并加以改造、插入工具栏和状态栏对象的声明等。同时还提到了窗口销毁的处理方法。本文详细介绍了实现方法并给出了相关注意事项。 ... [详细]
  • 如何在HTML中获取鼠标的当前位置
    本文介绍了在HTML中获取鼠标当前位置的三种方法,分别是相对于屏幕的位置、相对于窗口的位置以及考虑了页面滚动因素的位置。通过这些方法可以准确获取鼠标的坐标信息。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 本文详细介绍了Android中的坐标系以及与View相关的方法。首先介绍了Android坐标系和视图坐标系的概念,并通过图示进行了解释。接着提到了View的大小可以超过手机屏幕,并且只有在手机屏幕内才能看到。最后,作者表示将在后续文章中继续探讨与View相关的内容。 ... [详细]
  • Android获取app应用程序大小的方法
    Android获取app应用程序大小的方法-Android对这种方法进行了封装,我们没有权限去调用这个方法,所以我们只能通过AIDL,然后利用Java的反射机制去调用系统级的方法。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • 本文介绍了腾讯最近开源的BERT推理模型TurboTransformers,该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想,通过简化问题和加速开发,实现了快速推理能力。同时,文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题,并提出了合并计算的解决方案。 ... [详细]
  • Activiti7流程定义开发笔记
    本文介绍了Activiti7流程定义的开发笔记,包括流程定义的概念、使用activiti-explorer和activiti-eclipse-designer进行建模的方式,以及生成流程图的方法。还介绍了流程定义部署的概念和步骤,包括将bpmn和png文件添加部署到activiti数据库中的方法,以及使用ZIP包进行部署的方式。同时还提到了activiti.cfg.xml文件的作用。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
author-avatar
紫岚蓝魂_578
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有