万字长文带你看尽深度学习中的各种卷积网络（下篇）

作者：会展小控 | 来源：互联网 | 2023-09-11 17:51

雷锋网(公众号：雷锋网) AI科技评论按：深度学习中的各种卷积网络大家知多少？对于那些听说过却又对它们没有特别清晰的认识的小伙伴们，KunlunBai 这篇文章非常值得一读。Kun

雷锋网(公众号：雷锋网) AI 科技评论按：深度学习中的各种卷积网络大家知多少？对于那些听说过却又对它们没有特别清晰的认识的小伙伴们，Kunlun Bai 这篇文章非常值得一读。Kunlun Bai 是一位人工智能、机器学习、物体学以及工程学领域的研究型科学家，在本文中，他详细地介绍了 2D、3D、1x1 、转置、空洞（扩张）、空间可分离、深度可分离、扁平化、分组等十多种卷积网络类型。雷锋网 AI 科技评论编译如下。

（本部分为下篇，点击查看上篇内容）

7. 空洞卷积（扩张卷积）

下面这两篇论文对空洞卷积（Dilated Convolution）进行了介绍：

《使用深度卷积网络和全连接 CRF 做语义图像分割》（Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs，https://arxiv.org/abs/1412.7062）

《通过空洞卷积做多规模的上下文聚合》（Multi-scale context aggregation by dilated convolutions，https://arxiv.org/abs/1511.07122）

空洞卷积也称作扩张卷积（Atrous Convolution）。

这是一个标准的离散卷积：

万字长文带你看尽深度学习中的各种卷积网络（下篇）

标准卷积

空洞卷积如下：

万字长文带你看尽深度学习中的各种卷积网络（下篇）

当 l=1 时，空洞卷积就变成了一个标准卷积。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

直观上，空洞卷积通过在卷积核部分之间插入空间让卷积核「膨胀」。这个增加的参数 l（空洞率）表明了我们想要将卷积核放宽到多大。虽然各实现是不同的，但是在卷积核部分通常插入 l-1 空间。下图显示了当 l-1,2,4 时的卷积核大小。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

空洞卷积的感受野。本质上是在不增加额外的计算成本的情况下观察感受野。

在图像中，3 x 3 的红点表明经过卷积后的输出图像的像素是 3 x 3。虽然三次空洞卷积都得出了相同维度的输出图像，但是模型观察到的感受野（receptive field）是大不相同的。l=1 时，感受野为 3 x 3；l=2 时，感受野是 7 x 7；l=3 时，感受野增至 15x15。有趣的是，伴随这些操作的参数数量本质上是相同的，不需要增加参数运算成本就能「观察」大的感受野。正因为此，空洞卷积常被用以低成本地增加输出单元上的感受野，同时还不需要增加卷积核大小，当多个空洞卷积一个接一个堆叠在一起时，这种方式是非常有效的。

《通过空洞卷积做多规模的上下文聚合》的论文作者在多层空洞卷积以外创建了一个网络，其中的空洞率 l 每层都以指数级的方式增长。结果，当参数数量每层仅有直线式的增长时，有效的感受野实现了指数型的增长。

该论文中，空洞卷积被用于系统地聚合多规模的上下文信息，而不需要损失分辨率。该论文表明，其提出的模块提高了当时（2016 年）最先进的语义分割系统的准确率。大家可以阅读这篇论文获得更多信息。

8. 可分离卷积

可分离卷积用于一些神经网络架构，例如 MobileNet（该架构论文地址：https://arxiv.org/abs/1704.04861）。可分离卷积分为空间可分离卷积（spatially separable convolution）和深度可分离卷积（depthwise separable convolution）。

8.1 空间可分离卷积

空间可分离卷积在图像的 2D 空间维度上执行，例如高和宽两个维度。从概念上来看，顾名思义，空间可分离卷积将卷积分解为两项单独的操作。下面所展示的案例中，一个卷积核为 3x3 的 Sobel 卷积核拆分成了一个 3x1 卷积核和一个 1x3 卷积核。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

一个卷积核为 3x3 的 Sobel 卷积核拆分成了一个 3x1 卷积核和一个 1x3 卷积核

在卷积中，3x3 卷积核可以直接对图像进行卷积操作。在空间可分离卷积中，首先由 3x1 卷积核对图像进行卷积，之后再应用 1x3 卷积核。在执行相同的操作中，这就要求 6 个而不是 9 个参数了。

此外，比起卷积，空间可分离卷积要执行的矩阵乘法运算也更少。举一个具体的案例，在卷积核为 3x3 的 5x5 图像上做卷积，要求横向扫描 3 个位置（以及纵向扫描 3 个位置）上的卷积核，共有 9 个位置，如下图标出的 9 个点所示。在每个位置都进行 9 次元素级别的乘法运算，共执行 9 x 9 = 81 次运算。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

针对空间可分离卷积，另一方面，我们先在 5x5 图像上应用一个 3x1 的过滤器，这样的话就能横向扫描 5 个位置的卷积核以及纵向扫描 3 个位置的卷积核，总共 5 x 3=15 个位置，如下图所标的点所示。这样的话就共要进行 15 x 3 = 45 次乘法运算。现在得到的是一个 3 x 5 的矩阵，这个矩阵经过 1 x 3 卷积核的卷积操作——从横向上的 3 个位置以及纵向上的 5 个位置来扫描该矩阵。对于这 9 个位置中的每一个，都进行了 3 次元素级别的乘法运算，这个步骤总共要求 9 x 3=27 次乘法运算。因此，总体上，该空间可分离卷积共进行了 45 + 27 = 72 次乘法运算，也比标准的卷积所要进行的乘法运算次数要少。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

有 1 个通道的空间可分离卷积

让我们稍微概括一下上面的案例。假设我们现在在 m x m 卷积核、卷积步长=1 、填充=0 的 N x N 图像上做卷积。传统的卷积需要进行 (N-2) x (N-2) x m x m 次乘法运算，而空间可分离卷积只需要进行 N x (N-2) x m + (N-2) x (N-2) x m = (2N-2) x (N-2) x m 次乘法运算。空间可分离卷积与标准的卷积的计算成本之比为：

万字长文带你看尽深度学习中的各种卷积网络（下篇）

对于图像大小 N 大于过滤器大小（N >> m），这个比率就变成了 2 / m，这就意味着在这种渐进情况（N >> m）下，对于一个 3x3 的过滤器，空间可分离卷积与标准的卷积之间的计算成本比率为 2/3；对于一个 5x5 的过滤器，比率为 2/5；对于一个 7x7 的过滤器，比如为 2/7，以此类推。

虽然空间可分离卷积节省了计算成本，但是它很少应用于深度学习中。一个主要的原因是，并不是所有的卷积核都能被拆分为 2 个更小的卷积核。如果我们用这种空间可分离卷积来取代所有传统的卷积，就会束缚我们去搜寻训练期间所有可能存在的卷积核，因为这个训练结果可能是还只是次优的。

8.2 深度可分离卷积

现在，让我们移步到深度可分离卷积，它在深度学习中的应用要更普遍得多（例如在 MobileNet 和 Xception 中）。深度可分离卷积由两步组成：深度卷积以及 1x1 卷积。

在介绍这些步骤前，值得回顾一下前面部分所提到的 2D 卷积核 1x1 卷积。让我们先快速过一下标准的 2D 卷积。举一个具体的案例，假设输入层的大小为 7 x 7 x 3（高 x 宽 x 通道），过滤器大小为 3 x 3 x 3，经过一个过滤器的 2D 卷积后，输出层的大小为 5 x 5 x 1（仅有 1 个通道）。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

使用 1 个过滤器做标准的 2D 卷积来创建一个 1 层的输出

一般来说，两个神经网络层间应用了多个过滤器，现在假设过滤器个数为 128。128 次 2D 卷积得到了 128 个 5 x 5 x 1 的输出映射。然后将这些映射堆叠为一个大小为 5 x 5 x 128 的单个层。空间维度如高和宽缩小了，而深度则扩大了。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

使用 128 个过滤器做标准的 2D 卷积来创建一个 128 层的输出

接下来看看使用深度可分离卷积如何实现同样的转换。

首先，我们在输入层上应用深度卷积。我们在 2D 卷积中分别使用 3 个卷积核（每个过滤器的大小为 3 x 3 x 1），而不使用大小为 3 x 3 x 3 的单个过滤器。每个卷积核仅对输入层的 1 个通道做卷积，这样的卷积每次都得出大小为 5 x 5 x 1 的映射，之后再将这些映射堆叠在一起创建一个 5 x 5 x 3 的图像，最终得出一个大小为 5 x 5 x 3 的输出图像。这样的话，图像的空间维度缩小了吗，但是深度保持与原来的一样。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

深度可分离卷积—第一步：在 2D 卷积中分别使用 3 个卷积核（每个过滤器的大小为 3 x 3 x 1），而不使用大小为 3 x 3 x 3 的单个过滤器。每个卷积核仅对输入层的 1 个通道做卷积，这样的卷积每次都得出大小为 5 x 5 x 1 的映射，之后再将这些映射堆叠在一起创建一个 5 x 5 x 3 的图像，最终得出一个大小为 5 x 5 x 3 的输出图像。

深度可分离卷积的第二步是扩大深度，我们用大小为 1x1x3 的卷积核做 1x1 卷积。每个 1x1x3 卷积核对 5 x 5 x 3 输入图像做卷积后都得出一个大小为 5 x 5 x1 的映射。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

这样的话，做 128 次 1x1 卷积后，就可以得出一个大小为 5 x 5 x 128 的层。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

深度可分离卷积完成这两步后，同样可以将一个 7 x 7 x 3 的输入层转换为 5 x 5 x 128 的输出层。

深度可分离卷积的完整过程如下图所示：

万字长文带你看尽深度学习中的各种卷积网络（下篇）

深度可分离卷积的完整过程

因此，做深度可分离卷积的优势是什么？高效！相比于 2D 卷积，深度可分离卷积的执行次数要少得多。

让我们回忆一下 2D 卷积案例中的计算成本：128 个 3x3x3 的卷积核移动 5x5 次，总共需要进行的乘法运算总数为 128 x 3 x 3 x 3 x 5 x 5 = 86,400 次。

那可分离卷积呢？在深度卷积这一步，有 3 个 3x3x3 的卷积核移动 5x5 次，总共需要进行的乘法运算次数为 3x3x3x1x5x5 = 675 次；在第二步的 1x1 卷积中，有 128 个 3x3x3 的卷积核移动 5x5 次，总共需要进行的乘法运算次数为 128 x 1 x 1 x 3 x 5 x 5 = 9,600 次。因此，深度可分离卷积共需要进行的乘法运算总数为 675 + 9600 = 10,275 次，花费的计算成本仅为 2D 卷积的 12%。

因此对于任意大小的图像来说，应用深度可分离卷积能节省多少次计算呢？我们稍微概括一下上面的案例。假设输入图像大小为 H x W x D，2D 卷积的卷积步长为 1，填充为 0，卷积核大小为 h x h x D（两个 h 相等）、个数为 Nc。2D 卷积后，大小为 H x W x D 的输入层最终转换为大小为（H-h+1）x（W-h+1）x Nc 的输出层，总共需要进行的乘法运算次数为：Nc x h x h x D x (H-h+1) x (W-h+1)。

针对同样的转换，深度可分离卷积总共需要进行的乘法运算次数为：D x h x h x 1 x (H-h+1) x (W-h+1) + Nc x 1 x 1 x D x (H-h+1) x (W-h+1) = (h x h + Nc) x D x (H-h+1) x (W-h+1)。

深度可分离卷积与 2D 卷积之间的乘法运算次数之比为：

万字长文带你看尽深度学习中的各种卷积网络（下篇）

对于大部分现代框架而言，输出层往往都有许多个通道，例如几百甚至几千个通道。对于 Nc >> h 的层，上面的表达式会缩短为 1/h/h，这就意味着对于这个渐进的表达式而言，如果使用的过滤器大小为 3 x 3，2D 卷积需要进行的乘法运算次数比深度可分离卷积多出 9 次；使用大小为 5 x5 的过滤器，则要多出 25 次。

使用深度可分离卷积有什么缺点吗？当然有。深度可分离卷积会减少卷积中的参数个数，这样的话，对于一个小的模型，如果采用深度可分离模型来踢打 2D 模型，该模型的能力就会被大为削弱。结果，该模型也会变成次优的模型。然而，如果恰当使用，深度可分离卷积可以提高效率而不会明显损害模型的性能。

9. 扁平化卷积

《将扁平化卷积神经网络应用于前馈加速》（Flattened convolutional neural networks for feedforward acceleration，https://arxiv.org/abs/1412.5474）这篇论文对扁平化卷积（Flattened convolutions）进行了介绍。直观上，这种卷积的思路就是应用过滤器分离，即将标准的分离器拆分为 3 个 1D 分离器，而不是直接应用一个标准的卷积过滤器来将输入层映射为输出层。这个思路类似于前部分所提到的空间可分离卷积，其中的一个空间过滤器近似于两个 rank-1 过滤器。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

图片源自：https://arxiv.org/abs/1412.5474

需要注意的一点事，如果标准卷积的过滤器是 rank-1 过滤器，这样的过滤器可以被拆分为 3 个 1D 过滤器的交叉乘积，但是这是一个前提条件并且标准过滤器的固有 rank 往往比现实应用中的更高。正如论文中所指出的：「随着分类问题的难度增加，解决该问题还需要更多的关键部分... 深度网络中学习过滤器具有分布的特征值，并且将分离直接用于过滤器会导致明显的信息丢失。」

为了减轻这类问题，论文限制了感受野的关系从而让模型可以根据训练学习 1D 分离的过滤器。这篇论文声称，通过使用由连续的 1D 过滤器组成的扁平化网络在 3D 空间的所有方向上训练模型，能够提供的性能与标准卷积网络相当，不过由于学习参数的显著减少，其计算成本要更低得多。

10. 分组卷积

2012 年的一篇 AlexNet 论文（ImageNet Classification with Deep Convolutional Neural Networks，https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf）对分组卷积（Grouped convolution）进行了介绍。采用这种卷积的主要原因是为了让网络用有限的记忆（1.5GB 记忆/GPU）在两个 GPU 上进行训练。下图的 AlexNet 现实了大部分层的两条分离的卷积路线，正在进行两个 GPU 的模型并行化计算。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

图片源自：https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

这里我描述的是分组卷积是如何实现的。首先，传统的 2D 卷积步骤如下图所示。在这个案例中，通过应用 128 个过滤器（每个过滤器的大小为 3 x 3 x 3），大小为 7 x 7 x 3 的输入层被转换为大小为 5 x 5 x 128 的输出层。针对通用情况，可概括为：通过应用 Dout 个卷积核（每个卷积核的大小为 h x w x Din），可将大小为 Hin x Win x Din 的输入层转换为大小为 Hout x Wout x Dout 的输出层。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

标准 2D 卷积

在分组卷积中，过滤器被拆分为不同的组，每一个组都负责具有一定深度的传统 2D 卷积的工作。下图的案例表示得更清晰一些。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

拆分为 2 个过滤组的分组卷积

上图表示的是被拆分为 2 个过滤器组的分组卷积。在每个过滤器组中，其深度仅为名义上的 2D 卷积的一半（Din / 2），而每个过滤器组都包含 Dout /2 个过滤器。第一个过滤器组（红色）对输入层的前半部分做卷积（[:, :, 0:Din/2]），第二个过滤器组（蓝色）对输入层的后半部分做卷积（[:, :, Din/2:Din]）。最终，每个过滤器组都输出了 Dout/2 个通道。整体上，两个组输出的通道数为 2 x Dout/2 = Dout。之后，我们再将这些通道堆叠到输出层中，输出层就有了 Dout 个通道。

10.1 分组卷积 VS 深度卷积

你可能已经观察到了分组卷积和深度可分离卷积中用到的深度卷积之间的某些联系和区别。如果过滤器组的数量与输入层的通道数相同，每个过滤器的深度就是 Din / Din = 1，其与深度卷积中的过滤器深度相同。

从另一个角度来说，每个过滤器组现在包含 Dout / Din 个过滤器。总体而言，其输出层的深度就是 Dout，这就与深度卷积的输出层深度不同，深度卷积不改变层的深度，但随后深度可分离卷积中的 1 x 1 卷积会加大层的深度。

执行分组卷积有如下几个优势：

第一个优势是训练的高效性。由于卷积被拆分到几条路线中，每条路线都由不同的 GPU 分别进行处理。这一过程就允许模型以平行的方式在多个 GPU 上进行训练。比起在一个 GPU 上一个一个地训练模型，这种在多个 GPU 上的模型并行化训练方式每一步都可以给网络喂养更多的图像。模型并行化被认为比数据并行化更佳，后者将数据集进行拆分，然后对每一批数据进行训练。不过，当每批数据的大小过小时，我们执行的工作基本上是随机的，而不是批量梯度下降。这就会造成训练速度变慢或聚合效果变差的结果。

对于训练非常深度的神经网络，分组卷积变得很重要，如下图中 ResNeXt 所示。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

图片源自：https://arxiv.org/abs/1611.05431

第二个优势是模型更加高效，例如，当过滤器组数增加时，模型参数就会减少。在前一个案例中，在标准的 2D 卷积中，过滤器有 h x w x Din x Dout 个参数，而在拆分为 2 个过滤器组的分组卷积中，过滤器仅有 (h x w x Din/2 x Dout/2) x 2 个参数：参数数量减少了一半。

第三个优势是给人带来了些惊喜的。分组卷积能提供比标准 2D 卷积更好的模型。另一篇很棒的博客

「A Tutorial on Filter Groups (Grouped Convolution)」阐述了这一点。这里仅提取了文章的部分内容，大家可前往 https://blog.yani.io/filter-group-tutorial/ 阅读全文。

其原因与稀疏的过滤器有关。下面的图像就是相邻层的过滤器之间的相互关系，这个关系是稀疏的。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

在 CIFAR10 训练的 Network-in-Network 模型中相邻层的过滤器之间的相关性矩阵。高相关的过滤器对更亮，而低相关过滤器对更暗。图片源自：https://blog.yani.io/filter-group-tutorial/

那针对分组卷积的相关性映射是怎么样的呢？

万字长文带你看尽深度学习中的各种卷积网络（下篇）

当采用 1、2、4、8 和 16 个过滤器组训练时，在 CIFAR10 训练的 Network-in-Network 模型中相邻层的过滤器之间的相关性。图片源自：https://blog.yani.io/filter-group-tutorial/

上图表示的就是模型采用 1、2、4、8 和 16 个过滤器组训练时，相邻层的过滤器的相互关系。这篇文章提出了一个推论：「过滤器组的作用就是学习通道维度上的块对角结构的稀疏性... 在对过滤器进行了分组的网络中，高相关性的过滤器以更结构化的方式学习。结果，不要求学习的过滤器关系也不再需要用参数进行表示，这就显著减少了网络中的参数数量，并且在减少参数的过程中不容易过度拟合，因此这种类似正则化的效果可以让优化器学习更准确、更有效的深度网络。」

万字长文带你看尽深度学习中的各种卷积网络（下篇）

过滤器分离：正如论文作者所指出的，过滤器组似乎将学习的过滤器分为两个不同的组：黑白过滤器和彩色过滤器。图片源自：https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

此外，每个过滤器组都学习数据独一无二的表示。正如 AlexaNet 这篇论文的作者所提到的，过滤器组似乎将学习的过滤器组织成了两个不同的组：黑白滤镜和彩色滤镜。

11. 混洗分组卷积

旷视研究院的 ShuffleNet 论文（ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices，https://arxiv.org/abs/1707.01083）对混洗分组卷积（Shuffled grouped convolution）进行了介绍。ShuffleNet 是一种计算高效的卷积架构，专为计算能力十分有限的移动设备（如 10–150 MFLOPs）设计。

混洗分组卷积背后的思路与分组卷积（应用于 MobileNet 、ResNeXt 等网络）以及深度可分离卷积（应用于 Xception）背后的思路相关。

总的来说，混洗分组卷积包括分组卷积和通道混洗（channel shuffling）。

在分组卷积部分，我们了解到了过滤器被拆分为不同的组，每个组都负责拥有一定深度的传统 2D 卷积的工作，显著减少了整个操作步骤。在下图这个案例中，假设过滤器分成了 3 组。第一个过滤器组对输入层的红色部分做卷积；第二个和第三个过滤器组分别对输入层的绿色和蓝色部分做卷积。每个过滤器组中的卷积核深度仅为输入层整个通道的 1/3。在这个案例中，进行第一个分组卷积 GConv1 后，输入层被映射到中间的特征映射上，之后特征映射又通过第一个分组卷积 GConv2 被映射到输出层上。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

分组卷积虽然计算高效，但它也存在问题，即每个过滤器分组仅对从前面层的固定部分向后传递的信息进行处理。在上面这个图像的案例中，第一个过滤器组（红色）仅处理从输入通道的前 1/3 部分向后传递的信息；蓝色过滤器组仅处理从输入通道的后 1/3 部分向后传递的信息。这样的话，每个过滤器组就仅限于学习一些特定的特征，这种属性就阻碍了训练期间信息在通道组之间流动，并且还削弱了特征表示。为了克服这一问题，我们可以应用通道混洗。

通道混洗的思路就是混合来自不同过滤器组的信息。下图中，显示了应用有 3 个过滤器组的第一个分组卷积 GConv1 后所得到的特征映射。在将这些特征映射喂养到第二个分组卷积之前，先将每个组中的通道拆分为几个小组，然后再混合这些小组。

万字长文带你看尽深度学习中的各种卷积网络（下篇）

通道混洗

经过这种混洗，我们再接着如常执行第二个分组卷积 GConv2。但是现在，由于经过混洗的层中的信息已经被混合了，我们本质上是将特征映射层的不同小组喂养给了 GConv2 中的每个组。结果，不仅信息可以在通道组间进行流动，特征表示也得到增强。

12. 逐点分组卷积

ShuffleNet 论文（ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices，https://arxiv.org/abs/1707.01083）同样也对逐点分组卷积（Pointwise grouped convolution）进行了介绍。一般针对 MobileNet 或 ResNeXt 中的分组卷积，分组在 3x3 的空间卷积而不是 1x1 卷积上执行。

ShuffleNet 这篇论文认为 1x1 卷积的计算成本也很高，提议也对 1x1 卷积进行分组。逐点分组卷积，顾名思义，就是针对 1x1 卷积进行分组操作，这项操作与分组卷积的相同，仅有一项更改——就是在 1x1 过滤器而非 NxN 过滤器 (N>1) 执行。

在该论文中，作者使用了我们都有所了解的 3 种卷积： (1) 混洗分组卷积； (2) 逐点分组卷积；以及 (3) 深度可分离卷积。这种架构设计能明显地减少计算量同时还能保持准确性。在实际的移动设备上，ShuffleNet 的分类错误与 AlexNet 的相当。然而，从使用 AlexNe 的 720 MFLOPs 到使用 ShuffleNet 的 40–140 MFLOPs，计算成本明显下降。在面向移动设备的卷积神经网络领域，ShuffleNe 以相对较小的计算成本以及良好的模型性能广受欢迎。

其他参考博文&文章

「An Introduction to different Types of Convolutions in Deep Learning」：https://towardsdatascience.com/types-of-convolutions-in-deep-learning-717013397f4d
「Review: DilatedNet — Dilated Convolution (Semantic Segmentation)」：https://towardsdatascience.com/review-dilated-convolution-semantic-segmentation-9d5a5bd768f5
「ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices」：https://medium.com/syncedreview/shufflenet-an-extremely-efficient-convolutional-neural-network-for-mobile-devices-72c6f5b01651
「Separable convolutions「A Basic Introduction to Separable Convolutions」：https://towardsdatascience.com/a-basic-introduction-to-separable-convolutions-b99ec3102728
Inception network「A Simple Guide to the Versions of the Inception Network」：https://towardsdatascience.com/a-simple-guide-to-the-versions-of-the-inception-network-7fc52b863202
「A Tutorial on Filter Groups (Grouped Convolution)」：https://blog.yani.io/filter-group-tutorial/
「Convolution arithmetic animation」：https://github.com/vdumoulin/conv_arithmetic
「Up-sampling with Transposed Convolution」：https://towardsdatascience.com/up-sampling-with-transposed-convolution-9ae4f2df52d0
「Intuitively Understanding Convolutions for Deep Learning」：https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1

论文

Network in Network：https://arxiv.org/abs/1312.4400
Multi-Scale Context Aggregation by Dilated Convolutions：https://arxiv.org/abs/1511.07122
Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs：https://arxiv.org/abs/1412.7062
ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices：https://arxiv.org/abs/1707.01083
A guide to convolution arithmetic for deep learning ：https://arxiv.org/abs/1603.07285
Going deeper with convolutions：https://arxiv.org/abs/1409.4842
Rethinking the Inception Architecture for Computer Vision ：https://arxiv.org/pdf/1512.00567v3.pdf
Flattened convolutional neural networks for feedforward acceleration ：https://arxiv.org/abs/1412.5474
Xception: Deep Learning with Depthwise Separable Convolutions：https://arxiv.org/abs/1610.02357
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications ：https://arxiv.org/abs/1704.04861
Deconvolution and Checkerboard Artifacts：https://distill.pub/2016/deconv-checkerboard/
ResNeXt: Aggregated Residual Transformations for Deep Neural Networks：https://arxiv.org/abs/1611.05431