当前位置: 开发笔记 > 编程语言 > 正文

enet分割_【图像分割模型】全局特征与局部特征的交响曲—ParseNet

作者：18382457909@163.com | 来源：互联网 | 2023-08-18 17:56

这是专栏《图像分割模型》的第7篇文章。在这里，我们将共同探索解决分割问题的主流网络结构和设计思想。尽管多尺度融合、空洞卷积都可以增加网络的感受野，但理论

这是专栏《图像分割模型》的第7篇文章。在这里&＃xff0c;我们将共同探索解决分割问题的主流网络结构和设计思想。

尽管多尺度融合、空洞卷积都可以增加网络的感受野&＃xff0c;但理论感受野与实际感受野仍然存在差异。那么如何真正利用图像的全局信息呢&＃xff1f;ParseNet告诉你。

作者 | 孙叔桥

编辑 | 言有三

本期论文《ParseNet: Looking Wider to See Better》

1 理论感受野是真的吗&＃xff1f;

相信通过前面几篇介绍上下文信息整合的文章&＃xff0c;大家已经能够体会到感受野对于分割网络效果的影响有多么巨大了。简单来说&＃xff0c;感受野越大&＃xff0c;网络所能“看见”的区域就越大&＃xff0c;从而能够用于分析的信息就更多。由此&＃xff0c;分割的效果也很有可能更好。

基于这种考虑&＃xff0c;许多算法尝试通过改变自身网络结构设计来增大网络的理论感受野&＃xff0c;认为这样就能够为网络带来更多的信息。尽管理论感受野的增大的确能够增加网络所获取的上下文信息&＃xff0c;但是&＃xff0c;理论感受野难道真的就代表了算法实际看见的区域吗&＃xff1f;

在实际应用中&＃xff0c;许多方法的理论感受野是很大的。比如前面文章中介绍过的带VGG的FCN网络中的fc7层&＃xff0c;其理论感受野为404x404像素。但是&＃xff0c;实验却证明&＃xff0c;其并没有办法看到这么大的区域。

比如&＃xff0c;ParseNet的作者做了这样一个实验&＃xff0c;即破坏图像中一个随机区域中的信息&＃xff0c;以此来观察网络的输出结果是否依赖于这个区域。结果如下图所示&＃xff1a;

从左到右分别为&＃xff1a;图像、热度图、理论感受野和实际感受野。

由此可以看出&＃xff0c;网络实际上能够覆盖的区域也就能达到整图的1/4左右&＃xff0c;远远没有达到理论感受野的尺寸。那么究竟该如何利用全部的图像上下文信息呢&＃xff1f;ParseNet提出了一种融合全局信息与局部信息的方法&＃xff0c;下面来具体介绍一下。

2 全局特征的提取与融合

如下图所示&＃xff0c;ParseNet通过全局池化提取图像的全局特征&＃xff0c;并将其与局部特征融合起来。

这种融合在过程中需要考虑两个主要问题&＃xff1a;融合的时机与尺度的归一化。

(1) 融合时机

直观上理解&＃xff0c;全局特征与局部特征的融合可以发生在两个节点&＃xff1a;分别是训练分类器之前&＃xff08;early fusion&＃xff09;和训练分类器之后&＃xff08;late fusion&＃xff09;。其中&＃xff0c;前者是将两个特征融合后&＃xff0c;作为一个整体共同送入分类网络&＃xff0c;训练分类器&＃xff1b;后者则是以两个特征为输入&＃xff0c;分别训练其对应的分类器&＃xff0c;最后再将分类的结果整合。

如果忽略结合特征后的训练过程&＃xff0c;那么这两种融合的时机的鲜果是差不多的。但是&＃xff0c;在某些情况下&＃xff0c;只有全局特征辅助下的局部特征才能够判断出正确的分类结果&＃xff1b;此时&＃xff0c;如果两个特征分别训练再整合&＃xff0c;那么这种情况下的分割损失是不可逆的&＃xff0c;也就是说&＃xff0c;这些情况下的分类将不正确。

当然&＃xff0c;这两种方法在实际应用过程中是可以实现相似的结果的&＃xff0c;但是late fusion需要进行归一化。

(2) 归一化

如下图所示&＃xff0c;不同层之间的特征的尺度是不同的&＃xff0c;而且这种不同可能很显著。&＃xff08;不同颜色代表不同层上的特征&＃xff09;

很显然&＃xff0c;这些特征的尺度&＃xff08;scale&＃xff09;和范数&＃xff08;norm&＃xff09;是不同的。如果直接将这些特征级联起来会造成大特征控制小特征&＃xff0c;使分割效果变差。尽管在训练过程中&＃xff0c;网络的权重可能会对这种情况进行调整&＃xff0c;但是这要求非常小心的调参和数据库选取。

因此&＃xff0c;ParseNet利用了L2范数来归一化特征的融合过程。具体而言&＃xff0c;给定d维输入x&＃xff0c;算法通过计算其L2范数并在整个维度内实现归一化。

此外&＃xff0c;如果只是单纯地对所有输入层进行归一化&＃xff0c;不仅会减慢网络的训练速度&＃xff0c;同时也会改变该层的尺度。因此&＃xff0c;还需要对其增加一个尺度参数gamma&＃xff0c;将归一化的结果进行尺度缩放&＃xff08;缩放结果为y&＃xff09;。

这一过程增加的参数量等于所有的通道数之和&＃xff0c;因此在反向传播过程中是可以忽略的。具体的反向传播公式如下&＃xff1a;

3 实验结果

下表是ParseNet在PASCAL VOC2012下的数据结果和与其他算法的比较&＃xff1a;

其效果与DeepLab-LargeFOV相近。

下图是全局特征有助于分割结果的示例&＃xff1a;

从左到右分别为&＃xff1a;图像、真值、对比基准和ParseNet。

尽管总体而言&＃xff0c;引入更多的上下文信息有助于分割。但是有时候&＃xff0c;引入全局信息也可能给分类造成不好的影响&＃xff0c;比如下图所示&＃xff0c;从左到右分别是原图&＃xff0c;真值&＃xff0c;FCN以及ParseNet。

总结

本文我们了解了全局信息该如何使用、该注意什么问题。下篇文章我们来看看RefineNet中是如何用残差校正进一步提高分割效果的。今天的分享就是这样啦&＃xff0c;下回见。

本专栏文章&＃xff1a;

第一期&＃xff1a;【图像分割模型】从FCN说起

第二期&＃xff1a;【图像分割模型】编解码结构SegNet

第三期&＃xff1a;【图像分割模型】感受野与分辨率的控制术—空洞卷积

第四期&＃xff1a;【图像分割模型】快速道路场景分割—ENet

第五期&＃xff1a;【图像分割模型】以RNN形式做CRF后处理—CRFasRNN

第六期&＃xff1a;【图像分割模型】多感受野的金字塔结构—PSPNet

第七期&＃xff1a;【图像分割模型】全局特征与局部特征的交响曲—ParseNet

第八期&＃xff1a;【图像分割模型】多分辨率特征融合—RefineNet

第九期&＃xff1a;【图像分割模型】用BRNN做分割—ReSeg

第十期&＃xff1a;【图像分割模型】BRNN下的RGB-D分割—LSTM-CF

第十一期&＃xff1a;【图像分割模型】实例分割模型—DeepMask

第十二期&＃xff1a;【图像分割模型】全景分割是什么&＃xff1f;

推荐阅读

list
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
utf-8
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
text
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
import
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
usb
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
input
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
runtime
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
list
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
list
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
join
SQL Server 存储过程开发与优化指南

本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧，旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]

蜡笔小新 2024-11-12 13:13:21
input
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
input
为什么说产品化是私有IaaS的唯一出路？

提供：ZStack云计算原创2016-12-26张鑫讲师介绍张鑫ZStack总架构师、联合创始人《系统虚拟化》主要作者，曾任职Intel开源软件技术中心 ... [详细]

蜡笔小新 2023-10-17 09:33:38
input
Visualizing and Understanding Convolutional Networks(ZFNet网络)论文阅读笔记

VisualizingandUnderstandingConvolutionalNetworksZFNet网络架构论文阅读笔记2022.4.4论文地址https:arxiv ... [详细]

蜡笔小新 2023-10-13 12:30:06
input
负载均衡 LVS vs Nginx 对比

前言今天总结一下负载均衡中LVS与Nginx的区别,之前看过好几篇博文一开始就说LVS是单向的,Nginx是双向的,我个人认为这是不准确的,LVS三种模式中,虽然DR模式以及TU ... [详细]

蜡笔小新 2023-10-11 10:22:36
input
企业之haproxy

haproxy是一款功能强大、灵活好用反向代理软件，提供了高可用、负载均衡、后端服务器代理的功能，它在7层负载均衡方面的功能很强大(支持cookietrack,headerre ... [详细]

蜡笔小新 2023-10-10 18:48:30

18382457909@163.com

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章