语义、实例与全景分割的对比分析（ComparativeAnalysisofSemantic,Instance,andPanopticSegmentation）

作者：饿狼传说少校_584_869_541 | 来源：互联网 | 2024-10-29 18:51

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。

语义 VS 实例 VS 全景分割&＃xff08;Semantic vs. Instance vs. Panoptic Segmentation&＃xff09;

图像分割是人工智能革命的重要组成部分。它是各行各业&＃xff08;例如&＃xff0c;制造、零售、医疗保健和运输&＃xff09;自主应用的核心组件。
从历史上看&＃xff0c;由于硬件限制&＃xff0c;图像分割在大规模上是无效的。如今借助 GPU、云 TPU 和边缘计算&＃xff0c;普通消费者也可以使用图像分割应用程序。

这篇博客将讨论语义、实例和全景图像分割技术。所有这三种技术在学术界和现实世界中都提供了有效的应用。在过去几年中&＃xff0c;全景分割在研究人员中看到了更多的增长&＃xff0c;以推进计算机视觉领域。相比之下&＃xff0c;语义分割和实例分割有许多现实世界的应用&＃xff0c;因为它们的算法更加成熟。无论以何种形式&＃xff0c;图像分割对于跨行业的超自动化都是必不可少的。

1. 引言

Kirillov等人&＃xff08;2018&＃xff09;提出了一种称为全景分割的新型图像分割技术&＃xff0c;该技术引发了这三种&＃xff08;即语义&＃xff0c;实例与全景&＃xff09;图像分割技术中的最佳技术的争论。

在深入研究这场辩论之前&＃xff0c;重要的是要了解图像分割的基本原理&＃xff0c;包括事物和物质之间的比较。

图像分割是一种计算机视觉和图像处理技术&＃xff0c;涉及在像素级别上对图像中的相似区域或片段进行分组或标记。类标注或掩码表示每个像素段。

在图像分割中&＃xff0c;图像有两个主要组成部分&＃xff1a;事物和物质。事物对应于图像中的可数对象&＃xff08;例如&＃xff0c;人&＃xff0c;花&＃xff0c;鸟&＃xff0c;动物等&＃xff09;。相比之下&＃xff0c;物质代表类似物质的无定形区域&＃xff08;或重复模式&＃xff09;&＃xff0c;这是不可数的&＃xff08;例如&＃xff0c;道路&＃xff0c;天空和草地&＃xff09;。

这篇博客将根据语义、实例和全景图像分割技术如何处理事物和物质的方式来区分它们。

2. 区别

2.1 语义分割

SegNet&＃xff1a;用于图像分割的深度卷积编码器-解码器架构

我们提出了一种新颖实用的深度全卷积神经网络架构&＃xff0c;用于语义像素分段&＃xff0c;称为SegNet。这个核心的可训练分割引擎由一个编码器网络、一个相应的解码器网络和一个像素级分类层组成。编码器网络的架构在拓扑上与
VGG16 网络中的 13
个卷积层相同。解码器网络的作用是将低分辨率编码器特征图映射到全输入分辨率特征图&＃xff0c;以便按像素分类。SegNet的新颖之处在于解码器对其较低分辨率的输入特征图进行上采样的方式。具体而言&＃xff0c;解码器使用在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这消除了学习上采样的需要。上采样的地图是稀疏的&＃xff0c;然后使用可训练的过滤器进行卷积以生成密集的特征地图。我们将我们提出的架构与广泛采用的FCN以及众所周知的DeepLab-LargeFOV&＃xff0c;DeconvNet架构进行了比较。此比较揭示了实现良好分割性能所涉及的内存与准确性权衡。与其他竞争架构相比&＃xff0c;它的可训练参数数量也明显减少。我们还在道路场景和SUN RGB-D室内场景分割任务上执行了SegNet和其他架构的受控基准测试。我们表明&＃xff0c;与其他架构相比&＃xff0c;SegNet在推理时间方面具有竞争力&＃xff0c;并且在内存方面提供更有效的推理性能。
SegNet的动机主要是场景理解应用程序。因此&＃xff0c;它被设计为在推理过程中的内存和计算时间方面都有效。

语义分割、实例分割和全景分割之间的区别在于它们如何处理图像中的事物和物质。

语义分割&＃xff08;Semantic segmentation&＃xff09;研究图像中不可数的东西。它分析每个图像像素&＃xff0c;并根据它所表示的纹理分配一个唯一的类标签。例如&＃xff0c;在图 1 中&＃xff0c;图像包含两辆汽车、三个行人、一条道路和天空。这两辆车代表了与三个行人相同的纹理。
语义分割将为这些纹理或类别中的每一个分配唯一的类标签。但是&＃xff0c;语义分割的输出无法区分或分别区分或计算两辆车或三个行人。常用的语义分割技术包括 SegNet、U-Net、DeconvNet 和 FCN。

2.2 实例分割

Mask R-CNN
我们提出了一个概念简单、灵活、通用的对象实例分割框架。我们的方法有效地检测图像中的对象&＃xff0c;同时为每个实例生成高质量的分割掩码。该方法称为掩码R-CNN&＃xff0c;通过添加用于预测对象掩码的分支与用于边界框识别的现有分支并行&＃xff0c;扩展了更快的R-CNN。Mask
R-CNN训练简单&＃xff0c;只为速度更快的R-CNN增加了一小部分开销&＃xff0c;运行速度为5fps。此外&＃xff0c;Mask
R-CNN很容易推广到其他任务&＃xff0c;例如&＃xff0c;允许我们在相同的框架中估计人体姿势。我们在COCO挑战集的所有三个方面显示了最佳结果&＃xff0c;包括实例分割、包围盒对象检测和个人关键点检测。在没有铃声和哨声的情况下&＃xff0c;Mask
R-CNN在每项任务上都优于所有现有的单一型号项目&＃xff0c;包括2016年COCO挑战赛的获胜者。我们希望我们简单有效的方法将成为坚实的基线&＃xff0c;并有助于简化实例级识别的未来研究。

实例分段&＃xff08;Instance segmentation&＃xff09;通常处理与可数事物相关的任务。它可以检测图像中存在的类的每个对象或实例&＃xff0c;并为其分配具有不同的遮罩或具有唯一标识符的边界框。
例如&＃xff0c;实例细分会将上一示例中的两辆车分别标识为car_1和car_2。常用的实例分段技术是Mask R-CNN&＃xff0c;Faster R-CNN&＃xff0c;PANet和YOLACT。图 2 演示了不同的实例分段检测。

2.3 全景分割

Fast Panoptic Segmentation Network 快速全景分段网络
在这项工作中&＃xff0c;我们提出了一个端到端网络&＃xff0c;用于快速全景分段。此网络称为快速全景分段网络 &＃xff08;FPSNet&＃xff09;&＃xff0c;不需要计算成本高昂的实例掩码预测或合并启发式方法。这是通过将全景任务转换为自定义密集的像素分类任务来实现的&＃xff0c;该任务为每个像素分配一个类标签或一个实例 ID。我们在城市景观和帕斯卡VOC数据集上评估了FPSNet&＃xff0c;发现FPSNet比现有的全景分段方法更快&＃xff0c;同时实现了更好或相似的全景分段性能。在 Cityscapes 验证集上&＃xff0c;对于分辨率为 1024x2048 像素的图像&＃xff0c;我们在预测时间为 114 毫秒时获得了 55.1% 的全景质量得分。对于较低分辨率的城市景观数据集和 Pascal VOC 数据集&＃xff0c;FPSNet 分别以每秒 22 帧和 35 帧的速度运行。

语义和实例分割技术的目标都是连贯地处理场景。当然我们希望识别场景中的事物和物质&＃xff0c;以构建更实用的真实世界应用程序。研究人员设计了一种解决方案来协调场景中的事物和物质&＃xff08;即全景分割&＃xff09;。

全景分割是两全其美的。它提出了一种统一的图像分割方法&＃xff0c;其中场景中的每个像素都被分配了一个语义标签&＃xff08;由于语义分割&＃xff09;和一个唯一的实例标识符&＃xff08;由于实例分割&＃xff09;。

全景分割&＃xff08;Panoptic segmentation&＃xff09;仅为每个像素分配一对语义标签和一个实例标识符。但是&＃xff0c;对象可以具有重叠的像素。在这种情况下&＃xff0c;全景分割通过偏爱对象实例来解决差异&＃xff0c;因为优先级是识别每个事物而不是物质。图3显示了不同的全景分割检测结果。
大多数全景分割模型都基于Mask R-CNN方法。其骨干架构包括UPSNet&＃xff0c;FPSNet&＃xff0c;EPSNet和VPSNet。

3. 度量标准

每种分割技术都使用不同的评估指标来评估场景中预测的遮罩或标识符。这是因为事物和物质的处理方式不同。

语义分割通常采用联合交集&＃xff08;Intersection Over Union IoU&＃xff09;度量&＃xff08;也称为Jaccard索引&＃xff09;&＃xff0c;该度量检查预测和地面真值掩码之间的相似性。它确定两个遮罩之间的面积重叠程度。除了IoU&＃xff0c;我们还可以使用骰子系数、像素精度和平均精度指标来执行更稳健的评估。这些指标不考虑对象级标签。
实例分割使用平均精度&＃xff08;Average Precision AP&＃xff09;作为标准评估指标。AP度量在每个对象实例的像素到像素基础上使用IoU。
全景分割使用全景质量&＃xff08;Panoptic Quality PQ&＃xff09;度量&＃xff0c;该度量评估预测的掩码和事物和物质的实例标识符。PQ通过乘以分割质量&＃xff08;Segmentagion Quality SQ&＃xff09;和识别质量&＃xff08;Recognition Quality RQ&＃xff09;项来统一所有类别的评估。SQ表示匹配段的平均IoU分数&＃xff0c;而RQ是使用预测掩码的精度和召回值计算的F1分数。

4. 应用

所有三种图像分割技术在计算机视觉和图像处理中都有重叠的应用。它们共同提供了许多现实世界的应用程序&＃xff0c;帮助人类增加其认知带宽。语义和实例分段的一些实际应用程序包括&＃xff1a;

自动驾驶汽车或自驾车&＃xff1a;3D语义分割允许车辆通过识别街道上的不同物体来更好地了解其环境。同时实例分割可识别每个对象实例&＃xff0c;以便为计算速度和距离提供更大的深度。
分析医学扫描&＃xff1a;这两种技术都可以识别MRI&＃xff0c;CT和X射线扫描中的肿瘤和其他异常。
卫星或航空图像&＃xff1a;这两种技术都提供了一种从空间或高度绘制世界地图的方法。它们可以勾勒出河流&＃xff0c;海洋&＃xff0c;道路&＃xff0c;农田&＃xff0c;建筑物等世界物体。这类似于它们在场景理解中的应用。

全景分割将自动驾驶汽车的视觉感知提升到一个新的水平。它生产出具有像素级精度的细粒度掩模&＃xff0c;使自动驾驶汽车能够做出更准确的驾驶决策。此外&＃xff0c;全景分割在医学图像分析、数据注释、数据增强、无人机遥感、视频监控和人群计数方面得到了越来越多的应用。在所有领域&＃xff0c;全景分割在预测Mask和边界框时提供更高的深度和准确性。

参考

https://pyimagesearch.com/2022/06/29/semantic-vs-instance-vs-panoptic-segmentation/
https://github.com/seminar2012/Detectron
https://analyticsindiamag.com/semantic-vs-instance-vs-panoptic-which-image-segmentation-technique-to-choose/

推荐阅读

io
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
io
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
io
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
io
深入解析 org.apache.xmlbeans.SchemaType.getBaseEnumType() 方法及其应用

本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法，提供了多个代码示例，并解释了其在不同场景下的使用方法。 ... [详细]

蜡笔小新 2024-12-26 11:46:55
io
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
io
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
io
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
io
游戏开发中的人工智能复习指南

本文档旨在帮助开发者回顾游戏开发中的人工智能技术，涵盖移动算法、群聚行为、路径规划、脚本AI、有限状态机、模糊逻辑、规则式AI、概率论与贝叶斯技术、神经网络及遗传算法等内容。 ... [详细]

蜡笔小新 2024-12-16 10:01:32
io
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
io
深入理解设计模式与七大原则

本文详细探讨了Java中的24种设计模式及其应用，并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类，帮助开发者更好地理解和应用这些模式，提升代码质量和可维护性。 ... [详细]

蜡笔小新 2024-12-27 19:10:10
io
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
io
LeetCode 991：故障计算器的最优解法

探讨一个显示数字的故障计算器，它支持两种操作：将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]

蜡笔小新 2024-12-27 14:34:44
io
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
main
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
io
TWEN-ASR 语音识别入门：运行首个程序

本文详细介绍了如何使用TWEN-ASR ONE开发板运行第一个语音识别程序，包括开发环境搭建、代码编写、下载和调试等步骤。 ... [详细]

蜡笔小新 2024-12-17 11:03:50

饿狼传说少校_584_869_541

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章