ps语义分割_图像分割新途径：3D视觉技术

作者：咖啡Spring_767 | 来源：互联网 | 2023-07-28 12:27

点击上方“计算机视觉life”，选择“星标”快速获得最新干货随着全面屏手机的流行，人脸识别也跟着火了。早期的人脸识别采用的是2D扫描技术，

点击上方“计算机视觉life”&＃xff0c;选择“星标”

快速获得最新干货

随着全面屏手机的流行&＃xff0c;人脸识别也跟着火了。早期的人脸识别采用的是2D扫描技术&＃xff0c;只是利用普通摄像头进行图像层面的人脸识别&＃xff0c;安全性与识别率较低。自从去年苹果iPhone X首次引入Face ID 3D人脸识别之后&＃xff0c;安卓机市场也开始推出一些3D人脸识别手机&＃xff0c;3D人脸识别逐渐在全面屏手机中普及。而要想快速、准确地完成人脸识别、行人检测等机器视觉领域的应用&＃xff0c;图像分割是其中至关重要的一环。

图像分割是什么

图像分割是计算机视觉领域的一个基础的研究方向&＃xff0c;也是该领域的一个经典问题。它的目的是将图像划分为若干个特定的区域&＃xff0c;从而提取出其中我们感兴趣的目标&＃xff0c;这样既保留了图像中重要的特征信息&＃xff0c;又有效减少了无用数据&＃xff0c;能够提高后续图像处理的准确率和效率。图像分割在自动驾驶、机器感知、医学影像等领域有着非常多的应用。

分类

根据分割的目的及难易程度&＃xff0c;图像分割可以分为语义分割与实例分割两种。语义分割 (Semantic scene labeling) 需要将图中每一个像素标注为某个物体类别。同一物体的不同实例不需要单独分割出来。对下图&＃xff0c;标注为人&＃xff0c;羊&＃xff0c;狗&＃xff0c;草地。其中我们最常见的一种应用&＃xff1a;背景分割&＃xff0c;将前景与后景分割开&＃xff0c;就属于语义分割&＃xff0c;这是一种最基础也最简单的语义分割。

实例分割 (Instance segment) 是物体检测&＃43;语义分割的综合体。在语义分割中&＃xff0c;同一类的物体并不区分彼此&＃xff0c;而是统一标记为同一类&＃xff0c;但实例分割需要区分每一个独立的个体。例如&＃xff0c;当图像中有多只羊时&＃xff0c;语义分割会将所有属于羊的像素预测为“羊”这个类别。而实例分割则需要区分出哪些像素属于第一只羊、哪些像素属于第二只羊。

评价指标

无论是语义分割还是实例分割&＃xff0c;都精确到了像素级别&＃xff0c;相对来说是比较复杂的任务&＃xff0c;其效果的评估方式也多种多样。其中一种评价指标IoU (Intersection over Union) 可以较好地评价图像分割的效果。

其中&＃xff0c;交集与并集分别指的是我们预测出来的一类物体的区域与真实标记的区域的交集与并集。IoU的计算充分考虑了分割正确与错误所占的比例&＃xff0c;若要得到好的评价&＃xff0c;则分割正确的比例要越大&＃xff0c;而分割错误的比例要越小。

图像分割&＃xff1a;从2D到3D

图像分割是图像处理和计算机视觉中重要的一环&＃xff0c;也是该领域的难点之一。传统的二维方法单纯依靠图像去分割前景&＃xff0c;受背景影响很大。而在三维视觉中&＃xff0c;可以直接利用深度信息分离前后景&＃xff0c;可以很方便地进行目标提取。随着三维空间数据在计算机视觉中的应用越来越多&＃xff0c;3D图像分割作为研究热点也受到了更多的关注。

Photoshop想必大家都听说过&＃xff0c;其中常用的抠图操作&＃xff0c;其实就是图像分割的一个应用&＃xff0c;它可将图像中我们感兴趣的区域提取出来&＃xff0c;方便进行后续处理。在PS中进行抠图是需要一定技巧的&＃xff0c;如果没有进行过专门的学习可能会遇到一些困难&＃xff0c;因为这是在2D图像中单纯依靠图像进行前后景分离&＃xff0c;分割的依据仅有图像中像素的亮度及颜色&＃xff0c;分割时将会遇到各种困难&＃xff0c;例如&＃xff0c;光照不均匀、噪声的影响、图像中存在不清晰的部分&＃xff0c;以及阴影等&＃xff0c;导致分割错误。但如果使用3D图像分割技术&＃xff0c;抠图操作则会简化许多&＃xff0c;有时候背景在颜色、光照角度来看十分复杂&＃xff0c;但是在3D图像中从距离角度来看&＃xff0c;其与前景物体有着明确的距离边界&＃xff0c;则在这一个维度上&＃xff0c;分割显得尤为容易。

多出一个维度的信息&＃xff0c;分割时就多了一个可靠的依据&＃xff0c;使得分割结果更准确、更可信&＃xff1b;还能简化分割算法&＃xff0c;减少计算量&＃xff0c;降低运算复杂度。

3D图像分割&＃xff1a;

多种方法任你选择

图像分割的方法有很多&＃xff0c;部分传统2D图像分割的方法也适用于3D图像分割&＃xff0c;并且又发展出了许多专门适用于3D图像分割的方法。

阈值分割法

阈值分割在2D图像中本就是一个常用的方法&＃xff0c;其基本思想是基于图像的灰度特征来计算一个或多个灰度阈值&＃xff0c;将像素与阈值进行比较后分到对应的类别中。在深度图像中&＃xff0c;则是以深度值作为阈值&＃xff0c;根据一定的深度阈值&＃xff0c;对图像进行分割。这个方法的优点是简单而快速&＃xff0c;在背景的深度较为一致&＃xff0c;且与前景有着较为明显的距离分界的情况下&＃xff0c;提取出来的一般就是我们所需要的对象&＃xff1b;但是其自适应性较差&＃xff0c;在物体杂乱放置&＃xff0c;距离变化较大的情况下&＃xff0c;它的效果会大打折扣。

阈值分割是最简单而常用的方法&＃xff0c;其效果也是最为一般的&＃xff0c;为了提升阈值分割方法的效果&＃xff0c;论文中对近20年来阈值分割常用的一些方法进行了概括和分类&＃xff0c;可以据此进行改进和创新。

最小割算法

最小割 (min-cut) 并不是一个什么很新鲜的东西。它早就用在网络规划&＃xff0c;求解桥问题等领域&＃xff0c;被移植到点云分割上也不足为奇。最小割是图论中的一个概念&＃xff0c;其作用是以某种方式&＃xff0c;将两个点分开&＃xff0c;当然这两个点中间可能是通过无数的点再相连的&＃xff0c;如图所示。

如果要分开最左边的点和最右边的点&＃xff0c;红绿两种割法都是可行的&＃xff0c;但是红线跨过了三条线&＃xff0c;绿线只跨过了两条。单从跨线数量上来论可以得出绿线这种切割方法更优的结论。但假设线上有不同的权值&＃xff0c;那么最优切割则和权值有关了。点云是一种非常适合分割的对象&＃xff0c;点云有天然分开的点&＃xff0c;可以用点与点之间的欧式距离来构造权值&＃xff0c;所有线的权值可映射为线长的函数。2009 ICCV 的一篇论文提出了基于最小割的点云分割算法&＃xff0c;给定一个对象位置&＃xff0c;构建一个k-最近邻图&＃xff0c;选择一个前景点作为硬约束&＃xff0c;通过计算最小割来找到前景-背景的最佳分割。

该算法更注重分割的精确性&＃xff0c;而不是分割的自动化进行&＃xff0c;适用于半自动化分割识别。在参数设置合适的情况下&＃xff0c;能达到较高的精确度。但是算法有较多的参数需要设置&＃xff0c;鲁棒性和普适性较低。

RANSAC算法

在现实点云数据中&＃xff0c;往往对场景中的物体有一定先验知识。比如&＃xff1a;桌面墙面多半是大平面&＃xff0c;桌上的罐子应该是圆柱体&＃xff0c;长方体的盒子可能是牛奶盒......对于复杂场景中的物体&＃xff0c;其几何外形可以归结于简单的几何形状&＃xff0c;这为分割带来了巨大的便利。RANSAC算法可以很好的将此类物体分割出来。

RANSAC可以从一组包含局外点的观测数据集中&＃xff0c;通过迭代方式估计出数学模型的参数。若使用最小二乘法不能找到适应于局内点的直线&＃xff0c;原因是最小二乘法尽量去适应包括局外点在内的所有点。相反&＃xff0c;RANSAC能得出一个仅仅用局内点计算出模型&＃xff0c;忽略了可能为噪声的局外点的干扰。

论文将RANSAC应用于点云形状检测&＃xff0c;用于检测一些拥有较规则形状的简单物体&＃xff0c;该算法能将点云分解为固有形状和一组剩余点的混合结构。

论文中使用了RANSAC算法在深度图像中分割天花板和地板从而去除背景。

RANSAC算法适用于场景中包含简单的几何外形的情况&＃xff0c;像天花板、底板这种平面&＃xff0c;利用RANSAC算法进行分割去除背景有着良好的效果。

基于神经网络的方法

随着深度学习大火&＃xff0c;利用神经网络进行图像分割已经有了大量深入的研究&＃xff0c;深度学习使得图像分割的准确率提高了很多。但这些研究都是针对二维图形&＃xff0c;由于点云数据的非结构化以及点云无序性&＃xff0c;要将深度学习应用于3D点云需要解决点云的表示问题。因此就有了利用体素网格来表示点云的方法&＃xff0c;方法的核心是将三维数据的“立体栅格化”&＃xff0c;之后&＃xff0c;就可以在三维栅格数据上进行卷积网络的训练。

但是体素网格可能会带来巨大的数据量以及量化误差的代价&＃xff0c;因此又出现了基于多视图数据以及基于点的表示方法。Massachusetts大学的ICCV2015即使用了基于多视图的卷积神经网络&＃xff0c;该方法从不同的视角“拍摄”得到该物体的不同视角下的图像&＃xff0c;将这些产生的二维图像作为训练数据。中间会有个“View Pooling”&＃xff0c;接着会进行第二部分的卷积。

PointNet是斯垣福大学在2016年提出的一种点云分类/分割深度学习框架&＃xff0c;它采用了原始点云的输入方式&＃xff0c;对点云数据进行直接处理&＃xff0c;而非将点云数据进行格式化处理&＃xff0c;从而避免了将点云体素化(格网化)后产生的额外工作量以及像素点失真的问题&＃xff0c;最大限度地保留了点云的空间特征&＃xff0c;并在最终的测试中取得了很好的效果。PointNet使用深度神经网络对点云进行处理&＃xff0c;从而完成高层次的点云分类和语义分割的任务。

PointNet存在的问题是只考虑了全局特征而丢失了点云的局部特征&＃xff0c;从而出现了改进版的PointNet&＃43;&＃43;&＃xff0c;针对局部信息缺失的问题作了改进。

结语

图像分割技术与信息领域的其他学科密切相关&＃xff0c;因此随着数学、模式识别、人工智能、计算机科学等学科中新的理论和技术的产生&＃xff0c;出现了不少结合特定理论的分割技术&＃xff0c;如基于小波分析和变换的多尺度分割技术、基于聚类的分割技术、基于人工神经网络的分割技术等&＃xff0c;并且每年还不断有新的分割方法问诸于世&＃xff0c;从而将图像分割的研究向智能化和实用化的方向发展和推进。

图像分割是由图像处理到图像分析的关键步骤&＃xff0c;是图像识别和计算机视觉至关重要的预处理。没有正确的分割就不可能有正确的识别。3D数据的使用为图像分割技术的发展提供了新的方向&＃xff0c;并造成了深远的影响。

从零开始学习三维视觉核心技术SLAM&＃xff0c;扫描查看介绍&＃xff0c;3天内无条件退款

早就是优势&＃xff0c;学习切忌单打独斗&＃xff0c;这里有教程资料、练习作业、答疑解惑等&＃xff0c;优质学习圈帮你少走弯路&＃xff0c;快速入门&＃xff01;

交流群

欢迎加入公众号读者群一起和同行交流&＃xff0c;目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分)&＃xff0c;请扫描下面微信号加群&＃xff0c;备注&＃xff1a;”昵称&＃43;学校/公司&＃43;研究方向“&＃xff0c;例如&＃xff1a;”张三 &＃43; 上海交大 &＃43; 视觉SLAM“。请按照格式备注&＃xff0c;否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告&＃xff0c;否则会请出群&＃xff0c;谢谢理解~

投稿、合作也欢迎联系&＃xff1a;simiter&＃64;126.com

长按关注计算机视觉life

欢迎加入从零开始学习SLAM知识星球&＃xff0c;详见&＃xff1a;如何从零开始系统化学习视觉SLAM&＃xff1f;

最新AI干货&＃xff0c;我在看

推荐阅读

main
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
sum
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
ip
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
ip
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
search
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
process
MATLAB人体行为检测与识别

人体行为检测与识别摘要人体行为检测与识别是当前研究的重点，具有很高的研究价值和广阔的应用前景。主要应用在型人机交互、运动分析、智能监控和虚拟现实也称灵境技术ÿ ... [详细]

蜡笔小新 2024-10-20 19:34:31
search
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
process
每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖

2019年3月27日——ACM宣布，深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖， ... [详细]

蜡笔小新 2024-09-27 16:03:32
ip
人脸检测 pyqt+opencv+dlib

一、实验目标绘制PyQT界面，调用摄像头显示人脸信息。在界面中，用户通过点击不同的按键可以实现多种功能：打开和关闭摄像头， ... [详细]

蜡笔小新 2023-10-17 12:37:18
main
WinMain 函数详解及示例

本文详细介绍了 WinMain 函数的参数及其用途，并提供了一个具体的示例代码来解析 WinMain 函数的实现。 ... [详细]

蜡笔小新 2024-11-13 12:49:31
char
开发技巧：在Interface Builder中实现UIButton文本居中对齐的方法与步骤

开发技巧：在Interface Builder中实现UIButton文本居中对齐的方法与步骤 ... [详细]

蜡笔小新 2024-11-11 17:13:04
main
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
main
Android TextView：实现多彩文字与多样化字体效果

在探讨如何在Android的TextView中实现多彩文字与多样化字体效果时，本文提供了一种不依赖HTML技术的解决方案。通过使用SpannableString和相关的Span类，开发者可以轻松地为文本添加丰富的样式和颜色，从而提升用户体验。文章详细介绍了实现过程中的关键步骤和技术细节，帮助开发者快速掌握这一技巧。 ... [详细]

蜡笔小新 2024-11-10 15:37:21
main
全面覆盖的前端开发面试题集锦（附详尽解答）

本文汇集了我在网络上搜集以及在实际面试中遇到的前端开发面试题目，并附有详细解答。无论是初学者还是有一定经验的开发者，都应深入理解这些问题背后的原理，通过系统学习和透彻研究，逐步形成自己的知识体系和技术框架。 ... [详细]

蜡笔小新 2024-11-09 16:51:53
ip
Vue 页面状态管理与跨页面数据传递的有效策略

在 Vue 应用开发中，页面状态管理和跨页面数据传递是常见需求。本文将详细介绍 Vue Router 提供的两种有效方式，帮助开发者高效地实现页面间的数据交互与状态同步，同时分享一些最佳实践和注意事项。 ... [详细]

蜡笔小新 2024-11-08 12:45:14

咖啡Spring_767

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章