【NetworkArchitecture】SegNet论文解析（转）

作者：_Rongrise | 来源：互联网 | 2023-10-10 15:57

文章来源：https:blog.csdn.netfate_fjharticledetails53467948

文章来源： https://blog.csdn.net/fate_fjh/article/details/53467948

Introduction

自己制作国内高速公路label，使用SegNet训练高速公路模型，测试效果
技术分享图片

参考：http://mi.eng.cam.ac.uk/projects/segnet/tutorial.html
SegNet是Cambridge提出旨在解决自动驾驶或者智能机器人的图像语义分割深度网络，开放源码，基于caffe框架。SegNet基于FCN，修改VGG-16网络得到的语义分割网络，有两种SegNet，分别为正常版与贝叶斯版，同时SegNet作者根据网络的深度提供了一个basic版（浅网络）。

Outline

技术分享图片

                                              图1
1

SegNet网络结构如图1所示，Input为输入图片，Output为输出分割的图像，不同颜色代表不同的分类。语义分割的重要性就在于不仅告诉你图片中某个东西是什么，而且告知你他在图片的位置。我们可以看到是一个对称网络，由中间绿色pooling层与红色upsampling层作为分割，左边是卷积提取高维特征，并通过pooling使图片变小，SegNet作者称为Encoder，右边是反卷积（在这里反卷积与卷积没有区别）与upsampling，通过反卷积使得图像分类后特征得以重现，upsampling使图像变大，SegNet作者称为Decoder，最后通过Softmax，输出不同分类的最大值。这就是大致的SegNet过程，下面对这个过程里面使用到的方法进行介绍。

Convolution

SegNet的Encoder过程中，卷积的作用是提取特征，SegNet使用的卷积为same卷积（详见卷积神经网络CNN（1）)，即卷积后不改变图片大小；在Decoder过程中，同样使用same卷积，不过卷积的作用是为upsampling变大的图像丰富信息，使得在Pooling过程丢失的信息可以通过学习在Decoder得到。SegNet中的卷积与传统CNN的卷积并没有区别。

Batch Normalisation

批标准化（详见卷积神经网络CNN（2）)的主要作用在于加快学习速度，用于激活函数前，在SegNet中每个卷积层都会加上一个bn层，bn层后面为ReLU激活层，bn层的作用过程可以归纳为：
(1)训练时：
1.向前传播，bn层对卷积后的特征值（权值）进行标准化，但是输出不变，即bn层只保存输入权值的均值与方差，权值输出回到卷积层时仍然是当初卷积后的权值。
2.向后传播，根据bn层中的均值与方差，结合每个卷积层与ReLU层进行链式求导，求得梯度从而计算出当前的学习速率。
(2)测试时：每个bn层对训练集中的所有数据，求取总体的均值与方差，假设有一测试图像进入bn层，需要统计输入权值的均值与方差，然后根据训练集中整体的无偏估计计算bn层的输出。注意，测试时，bn层已经改变卷积的权值，所以激活层ReLU的输入也被改变。

ReLU

ReLU是对于传统激活函数sigmoid的改进，主要在梯度消失的问题上得到很好的解决。ReLU函数如下图所示，ReLU的输出为a=max(0,z)。
技术分享图片

                图2
1

在传统的CNN网络中，ReLU通常在全连接之后，结合偏置bias用于计算权值的输出，但是，在Seg
Net作者的研究中发现，激活层越多越有利于图像语义分割。图3为论文中，不同深度的卷积层增加与不增加激活函数的对比图。
技术分享图片

                                           图3
1

Pooling&Upsampling

Pooling在CNN中是使得图片缩小一半的手段，通常有max与mean两种Pooling方式，图4所示的是max Pooling。max Pooling是使用一个2x2的filter，取出这4个权重最大的一个，原图大小为4x4，Pooling之后大小为2x2，留意原图左上角粉色的四个数，最后只剩最大的6，这就是max的意思。
技术分享图片

                                                  图4
1

在SegNet中的Pooling与其他Pooling多了一个index的功能，也就是每次Pooling，都会保存通过max选出的权值在2x2 filter中的相对位置，对于图4的6来说，6在粉色2x2 filter中的位置为(1,1)(假设index从0开始），黄色的3的index为(0,0)。同时，从图1可以看到绿色的pooling与红色的upsampling通过pool indices相连，实际上是pooling后的indices输出到对应的upsampling（因为网络是对称的，所以第1此的pooling对应最后1次的upsamping，如此类推）。
Upsamping就是Pooling的逆过程，Upsamping使得图片变大2倍。我们清楚的知道Pooling之后，每个filter会丢失了3个权重，这些权重是无法复原的，但是在Upsamping层中可以得到在Pooling中相对Pooling filter的位置。所以Upsampling中先对输入的特征图放大两倍，然后把输入特征图的数据根据Pooling indices放入，如图5所示，Unpooling对应上述的Upsampling，switch variables对应Pooling indices。
技术分享图片

                         图5
1

Deconvolution

从图5中右边的Upsampling可以知道，2x2的输入，变成4x4的图，但是除了被记住位置的Pooling indices，其他位置的权值为0，因为数据已经被pooling走了。因此，SegNet使用的反卷积在这里用于填充缺失的内容，因此这里的反卷积与卷积是一模一样的（反卷积详见卷积神经网络CNN（1）），在图1中跟随Upsampling层后面的是也是卷积层。

Output

在图1中，SegNet，最后一个卷积层会输出所有的类别（包括other类），网络最后加上一个softmax层，由于是end to end，所以softmax需要求出所有每一个像素在所有类别最大的概率，最为该像素的label，最终完成图像像素级别的分类。

Bayesian SegNet

可以知道，在SeNet中最后每个像素都会对每一类的概率进行计算，再通过Softmat输出概率最大的一个，然后这个像素点就认为是这一类别，对应的概率就是这一像素属于该类的概率。这种由原因到结果的推导，可以称为先验概率，任何先验概率使用都会出现一个问题，不能知道这一结果的可靠性，即便先验概率非常大，但是对于不同的样本，先验概率无法保证一定正确。正是如此，才需要有从结果寻找原因的贝叶斯概率，即后验概率，它能给出结果的可信程度，即置信度。Bayesian SegNet正是通过后验概率，告诉我们图像语义分割结果的置信度是多少。Bayesian SegNet如图6所示。
技术分享图片

                                            图6
1

对比图1与图6，并没有发现Bayesian SegNet与SegNet的差别，事实上，从网络变化的角度看，Bayesian SegNet只是在卷积层中多加了一个DropOut层，其作用后面解释。最右边的两个图Segmentation与Model Uncertainty，就是像素点语义分割输出与其不确定度（颜色越深代表不确定性越大，即置信度越低）。

DropOut

在传统神经网络中DropOut层的主要作用是防止权值过度拟合，增强学习能力。DropOut层的原理是，输入经过DropOut层之后，随机使部分神经元不工作（权值为0），即只激活部分神经元，结果是这次迭代的向前和向后传播只有部分权值得到学习，即改变权值。
因此，DropOut层服从二项分布，结果不是0，就是1，在CNN中可以设定其为0或1的概率来到达每次只让百分之几的神经元参与训练或者测试。在Bayesian SegNet中，SegNet作者把概率设置为0.5，即每次只有一半的神经元在工作。因为每次只训练部分权值，可以很清楚地知道，DropOut层会导致学习速度减慢。

Gaussian process & Monte Carlo Dropout Sampling

参考论文：Dropout as a Bayesian approximation: Representing model uncertainty in deep learning
这里只说明高斯过程与蒙特卡罗抽样的作用，不详细解释原理。
高斯过程是指任意有限个随机变量都服从联合高斯分布，同时只需要知道均值与协防差就能够确定一个高斯过程，所以高斯过程可以用于从有限维到无限维的回归问题，从已知高斯分布，增加新的随机变量分布可以求出新的高斯分布，根据新的分布可以求出其均值与方差。
如何确定一个高斯分布？需要多次采样才能确定一个分布。蒙特卡罗抽样告诉我们可以通过设计一个试验方法将一个事件的频率转化为概率，因为在足够大的样本中，事件发生的频率会趋向事件发生的概率，因此可以很方便地求出一个未知分布。通过蒙特卡罗抽样，就可以求出一个新分布的均值与方差，这样使用方差大小就可以知道一个分布对于样本的差异性，我们知道方差越大差异越大。

Use Bayesian SegNet

在Bayesian SegNet中通过DropOut层实现多次采样，多次采样的样本值为最后输出，方差最为其不确定度，方差越大不确定度越大，如图6所示，mean为图像语义分割结果，var为不确定大小。所以在使用Bayesian SegNet预测时，需要多次向前传播采样才能够得到关于分类不确定度的灰度图，Bayesian SegNet预测如图7所示。
技术分享图片

                                                 图7
1

第一行为输入图像，第二行为ground truth，第三行为Bayesian SegNet语义分割输出，第四行为不确定灰度图。可以看到，
1.对于分类的边界位置，不确定性较大，即其置信度较低。
2.对于图像语义分割错误的地方，置信度也较低。
3.对于难以区分的类别，例如人与自行车，road与pavement，两者如果有相互重叠，不确定度会增加。

【Network Architecture】SegNet论文解析（转）

推荐阅读

jsp
深入解析Unity3D游戏开发中的音频播放技术

在游戏开发中，音频播放是提升玩家沉浸感的关键因素之一。本文将探讨如何在Unity3D中高效地管理和播放不同类型的游戏音频，包括背景音乐和效果音效，并介绍实现这些功能的具体步骤。 ... [详细]

蜡笔小新 2024-11-22 21:05:22
sum
视觉Transformer综述

本文综述了视觉Transformer在计算机视觉领域的应用，从原始Transformer出发，详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构，还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]

蜡笔小新 2024-11-22 19:53:16
text
如何在没有提交按钮的情况下提交HTML表单？

探讨了在HTML表单中使用元素代替进行表单提交的方法。 ... [详细]

蜡笔小新 2024-11-22 17:48:42
jsp
为何Compose与Swarm之后仍有Kubernetes的诞生？

探讨在已有Compose和Swarm的情况下，Kubernetes是如何以其独特的设计理念和技术优势脱颖而出，成为容器编排领域的领航者。 ... [详细]

蜡笔小新 2024-11-22 09:26:11
text
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
text
配置 Apache 虚拟主机详解

本文详细介绍如何在 Apache 中设置虚拟主机，包括基本配置和高级设置，帮助用户更好地理解和使用虚拟主机功能。 ... [详细]

蜡笔小新 2024-11-22 15:04:59
uri
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
sum
HDU 6116 路径计数优化

本文探讨了使用普通生成函数和指数生成函数解决组合与排列问题的方法，特别是在处理特定路径计数问题时的应用。文章通过详细分析和代码实现，展示了如何高效地计算在给定条件下不相邻相同元素的排列数量。 ... [详细]

蜡笔小新 2024-11-22 13:11:20
jsp
解决映射文件中重复属性字段问题

探讨如何在映射文件中处理重复的属性字段，以避免数据操作时出现错误。 ... [详细]

蜡笔小新 2024-11-22 11:48:50
jsp
Windows蓝屏故障代码解析与解决方法

在测试软件或进行系统维护时，有时会遇到电脑蓝屏的情况，即便使用了沙盒环境也无法完全避免。本文将详细介绍常见的蓝屏错误代码及其解决方案，帮助用户快速定位并解决问题。 ... [详细]

蜡笔小新 2024-11-22 11:46:53
jsp
网络流24题——试题库问题

题目描述：假设一个试题库中有n道试题。每道试题都标明了所属类别。同一道题可能有多个类别属性。现要从题库中抽取m道题组成试卷。并要求试卷包含指定类型的试题。试设计一个满足要求的组卷算 ... [详细]

蜡笔小新 2024-11-22 11:33:55
text
Nginx 配置下 Chrome 和 Firefox 对静态资源缓存处理差异

在使用 Nginx 作为服务器时，发现 Chrome 能正确从缓存中读取 CSS 和 JS 文件，而 Firefox 却无法有效利用缓存，导致加载速度显著变慢。 ... [详细]

蜡笔小新 2024-11-21 19:57:43
function
如何修正这段C++代码中的错误?

探讨了一个包含纯虚函数的C++代码片段，分析了其中的语法错误及逻辑问题，并提出了修正方案。 ... [详细]

蜡笔小新 2024-11-22 19:05:57
jsp
JavaScript 页面卸载事件详解 (onunload)

当用户从页面离开时（如关闭页面或刷新页面），会触发 onunload 事件，此时可以执行预设的脚本。需要注意的是，不同的浏览器对 onunload 事件的支持程度可能有所不同。 ... [详细]

蜡笔小新 2024-11-22 14:17:44
jsp
如何将 Git 提交编辑器从 Nano 更改为 Vim

默认情况下，Git 使用 Nano 编辑器进行提交信息的编辑，但如果您更喜欢使用 Vim，可以通过简单的配置更改来实现这一变化。本文将指导您如何通过修改全局配置文件来设置 Vim 作为默认的 Git 提交编辑器。 ... [详细]

蜡笔小新 2024-11-22 14:08:35

_Rongrise

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章