深度学习_深入探讨深度学习模型性能与神经网络宽度之间关系

作者：Katycui | 来源：互联网 | 2023-08-13 15:49

本文由编程笔记#小编为大家整理，主要介绍了深入探讨深度学习模型性能与神经网络宽度之间关系相关的知识，希望对你有一定的参考价值。

在一定的程度上，网络越深，性能越好。这一次我们来考虑另一个维度，宽度，即通道(channel)的数量。注意我们这里说的和宽度学习一类的模型没有关系，而是特指深度卷积神经网络的宽度。

1 为什么需要足够的宽度

网络更深带来的一个非常大的好处，就是逐层的抽象，不断精炼提取知识，如下图第一层学习到了边缘，第二层学习到了简单的形状，第三层开始学习到了目标的形状，更深的网络层能学习到更加复杂的表达。如果只有一层，那就意味着要学习的变换非常的复杂，这很难做到。

而宽度就起到了另外一个作用，那就是让每一层学习到更加丰富的特征，比如不同方向，不同频率的纹理特征。

下面是AlexNet模型的第一个卷积层的96个通道，尽管其中有一些形状和纹理相似的卷积核(这将成为优化宽度的关键)，还是可以看到各种各种的模式。

因为该卷积层的输入是RGB彩色图，所以这里就将其可视化为3通道的彩色图，每一个大小是11*11。

有的是彩色有的是灰色，说明有的侧重于提取纹理信息，有的侧重于提取颜色信息。

可以发现卷积核可视化之后和Gabor特征算子其实很像。Gabor特征算子就是使用一系列不同频率的Gabor滤波核与图像卷积，得到图像上的每个点和附近区域的频率分布。通常有8个方向，5个尺度。

太窄的网络，每一层能捕获的模式有限，此时网络再深都不可能提取到足够的信息往下层传递。

2 网络到底需要多宽

那么一个网络是越宽越好吗？我们又该如何利用好宽度呢？

2.1、网络宽度的下限在哪？

就算一个网络越宽越好，我们也希望效率越高越好，因为宽度带来的计算量是成平方数增长的。我们知道对于一个模型来说，浅层的特征非常重要，因此网络浅层的宽度是一个非常敏感的系数，那么发展了这么久，那些经典的网络第一个卷积层的宽度都是多少呢？

从AlexNet的96层到Vgg，Resnet等多数网络使用的64层，到高效网络Mobilenet的32层和Shufflenet的24层，似乎已经探到了下限，再往下性能就无法通过其他的方法来弥补了。

前次我们说过有许多的研究都验证了网络必须具有足够的深度才能逼近一些函数，比如文[1]中构造的3层网络，如果想要2层网络能够逼近表达能力，宽度会是指数级的增加。

那么反过来，是不是也有一些函数只有足够宽才能够表达呢？

针对网络宽度的研究虽不如网络深度多，但是也有学者做了相关研究。文[2]中就提出了任何Lebesgue-integrable函数，不能被一个宽度小于n的ReLU网络逼近，n是输入的维度，Lebesgue-integrable函数就是满足下面积分条件的函数。

不过与深度不同的是，这样的一些函数宽度减少后，用于补偿模型性能的深度不是呈指数级增长，而是多项式增长，这似乎反应了宽度并没有深度那么重要。

不过不管怎么样，当前研究者们都从理论上探索了宽度和深度的下限，表明宽度和深度是缺一不可的。

2.2、网络宽度对模型性能的影响

网络的宽度自然也不是越宽越好，下面我们看看网络的宽度带来的性能提升。

我们看一下Mobilenet网络的结果，Mobilenet研究了网络的宽度对性能的影响，通过一个乘因子来对每一层的宽度进行缩放，它们试验了1, 0.75, 0.5和0.25共4个值。

从上面结果可以看得出来，性能是持续下降的。

那么，是不是网络越宽越好呢？下面我们还是通过几个实验来证明就是了。公开论文中使用的ImageNet等数据集研究者已经做过很多实验了，我们另外选了两个数据集和一个全卷积模型。

第一个数据集是GHIM数据集，第二个数据集是从Place20中选择了20个类别，可见两者一个比较简单，一个比较困难。

使用全卷积模型的基准结构，包含5层卷积和一个全连接层，因此我们称其为allconv6吧，表示深度为6的一个卷积网络。

对这个网络的各个卷积层，我们也设置了不同的参数配置如下，每一个卷积层的stride都等于2。

首先我们比较Allconv6_1，Allconv6_2，Allconv6_3，Allconv6_4这4个模型和基准模型的结果，它们是以Allconv6_1为基础的模型。

Allconv6_1是各个通道数为baseline的四分之一的网络，而Allconv6_2，Allconv6_3，Allconv6_4分别是将Allconv6_1的第1，2层，第3，4层，第5层卷积通道数加倍的网络。

在GHIM数据集上的收敛结果如下：

从上图结果可以看出，基准模型allconv6的性能最好，allconv6_2，allconv6_3，allconv6_4的模型性能都超过allconv6_1，说明此时增加任何一个网络层的通道数都有益于模型性能的提升，而且性能仍旧未超过基准模型。

然后我们再看allconv6_5，allconv6_6，allconv6_7，allconv6_8与基准模型的对比，allconv6_5的各层的通道数只有baseline模型的一半。

从上图可以看出，模型的性能相差不大，这说明allconv6_5已经有足够好的宽度，再增加无益于性能的提升。这一点可以通过Place20上的实验结果进行证明，结果如下：

2.3、网络宽度和深度谁更加重要？

这个问题目前没有答案，两者都很重要，不过目前的研究是模型性能对深度更加敏感，而调整宽度更加有利于提升模型性能。

Mobilenet的作者们将深层更窄的网络和浅层更宽的网络进行了对比，去掉了conv5_2到conv5_6这5层不改变分辨率的depth seperable卷积块，结果对比如下：

更窄的网络拥有了更少的参数和更好的性能，这似乎也验证了增加网络的深度比增加网络的宽度更有利于提升性能。

在Wide Resnet网络中，作者们在CIFAR10和CIFAR100上用参数只是稍微增加的一个16层的宽网络取得了比1000层的窄网络更好的性能，而且计算代价更低。在ImageNet上50层的宽Resnet在参数增加少量的基础上，也比相应的ResNet152层的性能更好。

另一方面，宽度相对于深度对GPU也更加友好，因为GPU是并行处理的，许多研究也表明加宽网络比加深网络也更加容易训练。

没有谁更重要，根据笔者的经验，我们应该优先调整网络的宽度。

3 如何更加有效地利用宽度？

从前面的结果我们可知，网络的宽度是非常关键的参数，它体现在两个方面：
(1) 宽度对计算量的贡献非常大。
(2)宽度对性能的影响非常大。

我们的追求当然是越窄同时性能
越高的网络，确实很贪婪，不过这是要实现的目标，可以从以下几个方向入手。

3.1、提高每一层通道的利用率

宽度既然这么重要，那么每一个通道就要好好利用起来，所以，第一个发力点，便是
提高每一层的通道利用率。

文[3]研究表明网络中存在参数互补现象，如果将减半后的通道补上它的反，会获得相当于通道减半前原有模型的表达能力。
基于这个原理，通过输入通道取反和输入通道进行concat的方式来扩充通道。
这样仅仅以原来一半的计算量便维持了原来的网络宽度和性能。

3.2、用其他通道的信息来补偿

这个思想在DenseNet[4]网络中被发挥地淋漓尽致。DenseNet网络通过各层之间进行concat，可以在输入层保持非常小的通道数的配置下，实现高性能的网络。

总结

深度学习成功的关键在于深，但是我们也不能忘了它的宽度，即通道数目，这对于模型性能的影响不亚于深度，在计算量上的影响甚至尤比深度更加重要。

送书福利

《深度学习之模型设计：核心算法与案例实践》

➤章节目录：

第1章神经网络和计算机视觉基础

第2章深度学习的基础

第3章数据集、评测指标与优化目标

第4章加深网络，提升模型性能

第5章 1×1卷积，通道维度升降的利器

第6章加宽网络，提升模型性能

第7章残差连接，深层网络收敛的关键

第8章分组卷积与卷积拆分，移动端高效率经典模型

第9章多尺度网络与非正常卷积，更丰富的感受野与不变性

第10章多输入网络，图像检索和排序的基准模型

第11章时序神经网络，有记忆的网络更聪明

第12章卷积从二维变成三维，实现升维打击

第13章动态推理与注意力机制，网络因样本而异

第14章生成对抗网络

本书得到了依图科技CTO、新加坡工程院院士、IEEE Fellow颜水成教授，新智元创始人、CEO 杨静，中国科学院半导体研究所研究员鲁华祥，知识星球CEO吴鲁加4位业内大咖的鼎力推荐，是一本非常优质，适合任何深度学习领域从业者学习的好书。

➤获取方式

点击
阅读原文
前往
极市社区
，在
文末留言
自己
深度学习
的心得感悟，
7月21日20点
，极小东将选取
10条优质留言赠送此书
（共10本）。没有被抽到的开发者可以通过扫描下方二维码进行购买。

参考文献

[1] Eldan R, Shamir O. The power of depth for feedforward neural networks[C]//Conference on learning theory. 2016: 907-940.

[2] Lu Z, Pu H, Wang F, et al. The expressive power of neural networks: A view from the width[C]//Advances in Neural Information Processing Systems. 2017: 6231-6239.

[3] Shang W, Sohn K, Almeida D, et al. Understanding and improving convolutional neural networks via concatenated rectified linear units[C]//international conference on machine learning. 2016: 2217-2225.

[4] Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4700-4708.

推荐阅读

io
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
io
H5游戏性能优化，调试技巧

本文介绍了H5游戏性能优化和调试技巧，包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说，解决游戏性能问题是一个关键的任务，本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]

蜡笔小新 2023-12-10 15:40:37
io
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
io
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
io
在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板

本文介绍了在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板的方法和步骤，包括将ResourceDictionary添加到页面中以及在ResourceDictionary中实现模板的构建。通过本文的阅读，读者可以了解到在Xamarin XAML语言中构建控件模板的具体操作步骤和语法形式。 ... [详细]

蜡笔小新 2023-12-12 17:52:50
io
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
js
腾讯BERT推理模型TurboTransformers的快速推理能力

本文介绍了腾讯最近开源的BERT推理模型TurboTransformers，该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想，通过简化问题和加速开发，实现了快速推理能力。同时，文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题，并提出了合并计算的解决方案。 ... [详细]

蜡笔小新 2023-12-12 13:48:41
io
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
io
macOS Big Sur全新设计大版本更新，10+个值得关注的新功能

本文介绍了Apple发布的新一代操作系统macOS Big Sur，该系统采用全新的界面设计，包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出，macOS Big Sur的设计与iPadOS越来越接近，结合了去年iPadOS对鼠标的完善等功能。 ... [详细]

蜡笔小新 2023-12-10 19:53:41
io
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
io
JavaScript进化：从迁徙到TypeScript

本文介绍了JavaScript进化到TypeScript的历史和背景，解释了TypeScript相对于JavaScript的优势和特点。作者分享了自己对TypeScript的观察和认识，并提到了在项目开发中使用TypeScript的好处。最后，作者表示对TypeScript进行尝试和探索的态度。 ... [详细]

蜡笔小新 2023-12-09 19:52:20
io
Linux进程控制块PCBtask_struct结构体结构及作用详解

本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用，包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]

蜡笔小新 2023-12-13 21:31:18
io
Windows操作系统的版本介绍及特点

本文介绍了Windows操作系统的版本及其特点，包括Windows 7系统的6个版本：Starter、Home Basic、Home Premium、Professional、Enterprise、Ultimate。Windows操作系统是微软公司研发的一套操作系统，具有人机操作性优异、支持的应用软件较多、对硬件支持良好等优点。Windows 7 Starter是功能最少的版本，缺乏Aero特效功能，没有64位支持，最初设计不能同时运行三个以上应用程序。 ... [详细]

蜡笔小新 2023-12-12 17:41:13
io
通过Anaconda安装tensorflow，并安装运行spyder编译器的完整教程

本文提供了一个完整的教程，介绍了如何通过Anaconda安装tensorflow，并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统，并提供了相关的网址供参考。通过本教程，读者可以轻松地安装和配置tensorflow环境，以及运行spyder编译器进行开发。 ... [详细]

蜡笔小新 2023-12-09 09:46:32
text
Android图形架构学习笔记（待修改）

以下简单总结来自Android官网，稍作总结：https:source.android.google.cndevicesgraphics概览Andr ... [详细]

蜡笔小新 2023-10-17 19:26:14

Katycui

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

深度学习_深入探讨深度学习模型性能与神经网络宽度之间关系

1 为什么需要足够的宽度

2 网络到底需要多宽

3 如何更加有效地利用宽度？

总结 深度学习成功的关键在于深，但是我们也不能忘了它的宽度，即通道数目，这对于模型性能的影响不亚于深度，在计算量上的影响甚至尤比深度更加重要。

总结

深度学习成功的关键在于深，但是我们也不能忘了它的宽度，即通道数目，这对于模型性能的影响不亚于深度，在计算量上的影响甚至尤比深度更加重要。