点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
现有的RGB-D显著性对象检测(SOD)模型需要大量的计算和内存消耗才能准确检测显著性对象。这限制了这些RGB-D SOD模型的实际应用。为了解决这一问题,本文提出了一种新型的轻量级RGB-D SOD模型。不同于现有大多数模型通常采用双流或单流结构,作者提出采用中层融合结构设计轻型RGB-D SOD模型,由于中层融合结构可以同时利用双流结构的模态共享信息和模态特定信息,并且可以显著降低单流结构的网络参数。在此基础上,设计了一种新型的信息感知多模态特征融合模块,以有效地捕获交叉模态互补信息。然后,设计了一种轻量级特征级和决策级特征融合(LFDF)模块,以更少的参数聚集不同阶段的特征级和决策级显著性信息。在中层融合结构中加入了IMFF和LFDF模块,该模型只有3.9M参数,运行速度为33帧/秒。在多个基准数据集上的实验结果验证了该方法的有效性和优越性。
论文创新点
这项工作的主要贡献如下:
(1)通过对中级特征融合的回顾,提出了一种轻型RGB-D SOD模型,该模型效率高、精度好、模型尺寸小,有助于SOD的实际应用。
(2)设计了一种新的信息感知多模态特征融合(IMFF)模块,利用RGB图像和深度图像中所有的区分性显著性信息。与大多数现有模型采用简单的融合策略(例如,串联和元素级加)不同,作者提出的IMFF模块根据多模态特征所包含的信息量进行融合。
(3)提出了一种轻量级的特征级和决策级特征融合(LFDF)模块,以更少的参数有效地聚合不同阶段的特征级和决策级显著性信息,实现更好的显著性预测。
框架结构
大多数现有RGB-D SOD方法的架构。(a)二束结构。(b)及(c)单流结构。(d)作者提出的模型的中层融合结构。
提出的轻量级RGB-D SOD模型的框架。
作者提出的IMFF模块的架构。
实验结果
由不同模型生成的显著性地图的可视化。
结论
在本文中,作者提出了第一个基于中层融合结构的轻量级RGB-D SOD模型。通过重新访问中层融合结构,该模型显著降低了网络参数。此外,本文提出的IMFF模块利用RGB和深度图像中不同局部区域的信息量,可以有效地捕获参数较少的交叉模态互补信息。同时,所提出的LFDF模块通过特征层和决策层信息的交叉层联合融合,可以有效提取交叉层的互补信息。基于中层融合结构,该模型只有3.9M参数,运行速度为33帧/秒。此外,在多个基准上的实验结果表明,本文提出的IMFF和LFDF模块可以在一定程度上弥补由于减小参数引起的性能下降。
论文链接:https://arxiv.org/pdf/2104.11543.pdf
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~