热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

bp算法用于图像分割_图像分割|基于深度卷积神经网络的小样本分割算法综述...

点击上方“AI算法修炼营”,选择“星标”公众号精选作品,第一时间送达整理:公众号计算机信息观察家本文仅作学术交流,如有侵权&

点击上方“AI算法修炼营”,选择“星标”公众号

精选作品,第一时间送达

整理:公众号 计算机信息观察家本文仅作学术交流,如有侵权,请联系删文

f7310c262923dc817e3e009e2e1780f4.png

介绍

深度卷积神经网络在图像分类、目标检测、语义分割等许多视觉理解任务上都取得了重大突破。一个关键的原因是大规模数据集的可用性,比如 ImageNet,这些数据集支持对深度模型的培训。然而,数据标记是昂贵的,特别是对于密集的预测任务,如语义分割和实例分割。此外,在对模型进行训练之后,很难将模型应用于新类的预测。与机器学习算法不同的是,人类只看到几个例子就能很容易地从图像中分割出一个新概念。人类和机器学习算法之间的差距激发了对小样本学习的研究,其目的是学习一个模型,可以很好地推广到具有稀缺标记的训练数据的新类别。小样本分割的终极目的是利用支持集中的 K 个训练图像对来“学习”一个模型,使得该模型能对训练图像对中出现的类别的新样本能够实现分割。

bbb4e0f6522543548776256271be1df6.png

相关工作2.1 元学习元学习解决的是学习如何学习的问题。元学习的思想是学习「学习(训练)」过程。主要有基于记忆 Memory 的方法、基于预测梯度的方法、利用 Attention 注意力机制的方法、借鉴 LSTM 的方法、面向 RL 的 Meta Learning 方法、利用 WaveNet 的方法、预测 Loss 的方法等等等。2.2 小样本学习小样本学习是元学习在监督学习领域的应用,Few-shot Learning模型大致可分为三类:Mode Based,Metric Based 和 Optimization Based。

其中 Model Based 方法旨在通过模型结构的设计快速在少量样本上更新参数,直接建立输入 x 和预测值 P 的映射函数;Metric Based 方法通过度量 batch 集中的样本和 support 集中样本的距离,借助最近邻的思想完成分类。

Optimization Based 方法认为普通的梯度下降方法难以在 few-shot 场景下拟合,因此通过调整优化方法来完成小样本分类的任务。
cea6b4214d6b08087345403eccd55631.png
2.3 语义分割语义分割就是按照“语义”给图像上目标类别中的每一点打一个标签,使得不同种类的东西在图像上被区分开来。可以理解成像素级别的分类任务。输入:(H*W*3)正常的图片;输出:(H*W*class)可以看为图片上每个点的 one-hot 表示,每一个 channel 对应一个 class,对每一个 pixel 位置,都有 class 数目个 channel,每个 channel 的值对应那个像素属于该 class 的预测概率。FCN是语义分割的开山之作,主要特色有两点:全连接层换成卷积层,不同尺度的信息融合 FCN-8S,16s,32s。U-net用于解决小样本的简单问题分割,比如医疗影片的分割。它遵循的基本原理与 FCN 一样:1. Encoder-Decoder 结构:前半部分为多层卷积池化,不断扩大感受野,用于提取特征。后半部分上采样回复图片尺寸。2. 更丰富的信息融合:如灰色剪头,更多的前后层之间的信息融合。这里是把前面层的输出和后面层 concat (串联)到一起,区别于 FCN 的逐元素加和。不同 Feature map 串联到一起后,后面接卷积层,可以让卷积核在 channel 上自己做出选择。注意的是,在串联之前,需要把前层的 feature map crop 到和后层一样的大小。SegNet和 U-net 在结构上其实大同小异,都是编码-解码结果。区别在于,SegNet 没有直接融合不同尺度的层的信息,为了解决为止信息丢失的问题,SegNet 使用了带有坐标(index)的池化。在 Max pooling 时,选择最大像素的同时,记录下该像素在 Feature map 的位置(左图)。在反池化的时候,根据记录的坐标,把最大值复原到原来对应的位置,其他的位置补零(右图)。后面的卷积可以把 0 的元素给填上。这样一来,就解决了由于多次池化造成的位置信息的丢失。Deeplab V1不同于之前的思路,他的特色有两点:1.由于 Pooling-Upsample 会丢失位置信息而且多层上下采样开销较大,把控制感受野大小的方法化成:带孔卷积(Atrous conv)。2. 加入 CRF(条件随机场),利用像素之间的关连信息:相邻的像素,或者颜色相近的像素有更大的可能属于同一个 class。PSPnet:前面的不同 level 的信息融合都是融合浅层和后层的 Feature Map,因为后层的感受野大,语义特征强,浅层的感受野小,局部特征明显且位置信息丰富。PSPnet 则使用了空间金字塔池化,得到一组感受野大小不同的 feature map,将这些感受野不同的 map concat 到一起,完成多层次的语义特征融合。Deeplab V2在 v1 的基础上做出了改进,引入了 ASPP(Atrous Spatial Pyramid Pooling)的结构,如上图所示。我们注意到,Deeplab v1使用带孔卷积扩大感受野之后,没有融合不同层之间的信息。ASPP 层就是为了融合不同级别的语义信息:选择不同扩张率的带孔卷积去处理 Feature Map,由于感受野不同,得到的信息的 Level 也就不同,ASPP 层把这些不同层级的 feature map concat 到一起,进行信息融合。Deeplab v3在原有基础上的改动是:1. 改进了 ASPP 模块。2.引入 Resnet Block。3. 丢弃 CRF。新的 ASPP 模块:1. 加入了 Batch Norm。2. 加入特征的全局平均池化(在扩张率很大的情况下,有效权重会变小)。全局平均池化的加入是对全局特征的强调、加强。在旧的 ASPP 模块中:我们以为在扩张率足够大的时候,感受野足够大,所以获得的特征倾向于全局特征。但实际上,扩张率过大的情况下,Atrous conv 出现了“权值退化”的问题,感受野过大,都已近扩展到了图像外面,大多数的权重都和图像外围的 zero padding 进行了点乘,这样并没有获取图像中的信息。有效的权值个数很少,往往就是 1。于是我们加了全局平均池化,强行利用全局信息。Deeplab v3+可以看成是把 Deeplab v3 作为编码器(上半部分)。后面再进行解码,并且在解码的过程中在此运用了不同层级特征的融合。此外,在 encoder 部分加入了 Xception 的结构减少了参数量,提高运行速递。

0144106a8100298fe6578122e84aa021.png

方法总结分类

3.1 OSLSM

motivition 就是学习一个 one-shot 的分割模型,首次提出双分支的网络用于 few-shot segmentation,条件分支用 VGG 提取特征,生成权重(w,b),分割分支用 FCN-32s 结构对 query image 进行特征提取,将其与条件分支所得参数进行点乘再通过 σ 函数得到分割结果。得到一个分割图,上采样到图像大小,利用某个阈值产生分割的二值图。输出的时候,为了是参数量与分割分支的特征图的通道数相对应,采用 weight hashing 的策略,将输出的 1000 维向量映射为 4097 维(w:4096, b:1),这种映射机制是建模成固定权重参数的全连接层来实现的。
46b89d5b7848c25cabd2388f5b9036aa.png

3.2 co-FCN

文章的主要比较惊奇的一点是仅对原始图像做一些稀疏的标注(目标位置上点几个关键点,背景位置上点几个关键点)就却能够实现对目标的像素级的分割。网络结构和 BMVC 那篇 paper 设置类似,也是采用双分支结构,将标注信息与原始图像 concate 后输入 conditioning branch 得到输入图像的 embedding。利用 segmentation branch 对 qurey image 进行特征提取,并将结果与 conditioning branch 得到的 embedding 进行 concate,再进行像素级分割。
9ba62da53b83e18450574d1018778880.png
3.3 AMP-2motivation:如何得到一个更好的原型。方法:在 task 流中,不断地更新每个类别地原型。
766fc7710cc440048e66d992bd7dc605.png
3.4 SG-One训练任务的流程:
b81cb5dbe6943c43ae17d45ed2f168a4.png
网络包含一个主干网络 Stem(代表的是 VGG-16 的前 3 个 Block)和两个分支:Guidance Branch 和 Segmentation Branch,需要注意的是两个分支共用了三个卷积块 ,个人的理解是,如果两个分支完全独立,那么 Guidance Branch 产生的指导就会一成不变;这就失去了意义,作者在论文最后的消融实验中做了相关的分析与实验;与 Segmentation Branch 产生交互后就可以在优化分割损失的同时对引导的特征图进行优化,使之匹配相应的真实 mask。网络在训练的时候加载了在 ILSVRC 数据集上预训练的权重。测试任务的流程:
e40ac3a5329bc264fb42ad042026bd29.png
主要的创新点:a. 提出使用 masked average pooling 来提取 support set 的中目标的表征向量;b. 采用余弦相似度来度量 query set 的表征向量与 support set 的表征向量之间距离,用于指导 query set 的分割;为什么 masked average pooling 会有用?解释如下:全卷积网络(FCN)能够保留输入图像的中每个像素相对位置;所以通过将二值 mask 与提取到的特征图相乘就可以完全保留目标的特征信息,排除掉背景等无关类别的特征。

3.5 PANet

创新点:利用了 prototypes 上的度量学习,无参数提出 prototypes 对齐正则化,充分利用 support 的知识对于带有弱注释的少样本直接使用
4b1eb7fceb9928556ee82fd6a4ea8eab.png
用同一个 backbone 来提取 support 和 query 的深度特征,然后使用 masked average pooling 从 support 的特征将不同的前景物体和背景嵌入不同的 prototypes 中,每个 prototype 表示对应的类别,这样 query 图像的每个的像素通过参考离它的嵌入表达最近的特定类的 prototype 来标记,得到 query 的预测 mask 后。训练的时候,得到mask后,再将刚才提取的 query feature 和 mask 作为新的“support set”,将之前的 support set 作为新的“query set”,再用“support set”对“query set”做一波预测,然后再算一个 lossprototype 紧凑且鲁棒的对每个语义类别进行表达;mask 标记那块就是无参度量学习,通过和嵌入空间的逐像素匹配来执行分割
fd6cca9dc0045d4205d5d50273f08420.png
执行一个 prototype 对齐正则化,用 query 和他的 mask 建立新的 support,然后用这个来预测原始的 support set 的分割,实验证明能鼓励 query 的 prototype 对齐他们的 support 的 prototype,只有训练的时候这么做(反向再推一次,看看是否真的相似)

3.6 CANet

主要贡献:开发了一种新颖的双分支密集比较模块,该模块有效地利用来自CNN的多级特征表示来进行密集的特征比较。提出迭代优化模块,以迭代方式改进预测结果。迭代细化的能力可以推广到具有少量镜头学习的看不见的类,以生成细粒度图。采用注意机制有效地融合来自 k-shot 设置中的多个支持示例的信息,其优于单次结果的不可学习的融合方法。证明给定的支持集具有弱注释,即边界框,我们的模型仍然可以获得与昂贵的像素级注释支持集的结果相当的性能,这进一步减少了新类别对于少数镜头分割的标记工作量。
ee7187511f7f2001283d210e6f75dec0.png

3.7 PGNet

在 CANet 基础上加了一个图注意力机制
fb40961ad748d1b713e8c9b7bc39d16f.png

3.8 FWB

a1a8e40107e8b1385df579991b977aca.png
两个主要创新点:Feature Weighting支持集前后景差异标准化向量:
fbe63d1bfb727a23ccbeaee6ae61c8a2.png
最大化特征差异:
cc4001783d445d83fc08924d648ef085.png
最终得到的关联向量:
e76dc4c914a60fb6ac673d273ef69348.png
标准化处理后的余弦相似性:
becde881ae720cdf15342062ff35c6a2.png
269ecadb8cb0db76e1f75c584d7d77ab.png
Feature Boosting 
98e909980c52c56286ea949c9d0cc850.png
f1c14c6541bef08e57cdf2a43fab8a1d.png
4f27eb5cae9f89a60f988269563631cd.png
a0ba3b8c63507048b0c46ca2baec5dc6.png

b9fd3c8be898a7faa17718544596bd3f.png

数据集介绍

PASCAL-5i
3c660318ea1138a2ad71eedc65972754.png
MS COCO-20i
dfb06dd0155845cf546e2f04c73197e3.png
FSS-100

0af6f5889c1141cfc2696e0bb76ca2d7.png

评测指标介绍Mean-IoU:
8c2c7170d1fe8a7807eb753bc0b9cd83.png
IoU 就是每一个类别的交集与并集之比,而 mIoU 则是所有类别的平均 IoU。
f4bd607b97bd718101199682f78cfd37.png
1bd8c6ae3363a63772f6f29361c1ee31.png
c6aa6472728b7dcfcce5edd91759e8cb.png
FB-IoU:前景和背景一起的准确率
a4c8b7d2eb077c690eed8264deac1ee1.png

0c69ef37410a4e606c27125ba9ee8cf0.png

结果陈列

7816c768f9dd2c9d80f11c644fecc02d.png
78712f1fe8445b5a4df84a15fc19187d.png

135ab03c6d4de9e60fac6d611903ccd4.png

40ec7b769e0090bb9bc14fa2ed646c0c.png

扫描上方微信号,进入学习群。

目标检测、图像分割、自动驾驶、机器人、面试经验。

福利满满,名额已不多…

1f9be26110ed8268b637869dbd99bef8.gif




推荐阅读
  • 由二叉树到贪心算法
    二叉树很重要树是数据结构中的重中之重,尤其以各类二叉树为学习的难点。单就面试而言,在 ... [详细]
  • 深入解析Java虚拟机(JVM)架构与原理
    本文旨在为读者提供对Java虚拟机(JVM)的全面理解,涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制,帮助开发者更好地掌握Java编程的核心技术。 ... [详细]
  • 深入解析SpringMVC核心组件:DispatcherServlet的工作原理
    本文详细探讨了SpringMVC的核心组件——DispatcherServlet的运作机制,旨在帮助有一定Java和Spring基础的开发人员理解HTTP请求是如何被映射到Controller并执行的。文章将解答以下问题:1. HTTP请求如何映射到Controller;2. Controller是如何被执行的。 ... [详细]
  • 深入解析Spring启动过程
    本文详细介绍了Spring框架的启动流程,帮助开发者理解其内部机制。通过具体示例和代码片段,解释了Bean定义、工厂类、读取器以及条件评估等关键概念,使读者能够更全面地掌握Spring的初始化过程。 ... [详细]
  • yikesnews第11期:微软Office两个0day和一个提权0day
    点击阅读原文可点击链接根据法国大选被黑客干扰,发送了带漏洞的文档Trumps_Attack_on_Syria_English.docx而此漏洞与ESET&FireEy ... [详细]
  • 探讨ChatGPT在法律和版权方面的潜在风险及影响,分析其作为内容创造工具的合法性和合规性。 ... [详细]
  • 深入剖析JVM垃圾回收机制
    本文详细探讨了Java虚拟机(JVM)中的垃圾回收机制,包括其意义、对象判定方法、引用类型、常见垃圾收集算法以及各种垃圾收集器的特点和工作原理。通过理解这些内容,开发人员可以更好地优化内存管理和程序性能。 ... [详细]
  • 本文将详细探讨 Java 中提供的不可变集合(如 `Collections.unmodifiableXXX`)和同步集合(如 `Collections.synchronizedXXX`)的实现原理及使用方法,帮助开发者更好地理解和应用这些工具。 ... [详细]
  • 本文介绍了如何使用JavaScript的Fetch API与Express服务器进行交互,涵盖了GET、POST、PUT和DELETE请求的实现,并展示了如何处理JSON响应。 ... [详细]
  • 我有一个SpringRestController,它处理API调用的版本1。继承在SpringRestControllerpackagerest.v1;RestCon ... [详细]
  • 使用Nginx反向代理实现多域名端口映射
    本文介绍如何通过配置本地hosts文件和Nginx反向代理,实现多个虚拟域名的端口映射,使用户可以通过标准HTTP端口80访问不同后端服务。 ... [详细]
  • 历经三十年的开发,Mathematica 已成为技术计算领域的标杆,为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]
  • 本文探讨了如何在Hive(基于Hadoop)环境中编写类似SQL的语句,以去除字段中的空格。特别是在处理邮政编码等数据时,去除特定位置的空格是常见的需求。 ... [详细]
  • 本文详细介绍了如何在 Android 中使用值动画(ValueAnimator)来动态调整 ImageView 的高度,并探讨了相关的关键属性和方法,包括图片填充后的高度、原始图片高度、动画变化因子以及布局重置等。 ... [详细]
  • GoCV入门指南:配置与基础应用
    本文详细介绍了GoCV的安装配置及基本使用方法,包括如何打开摄像头、图片和视频文件。适合Golang开发者快速上手。 ... [详细]
author-avatar
mobiledu2502919283
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有