热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

伦敦大学学院开源物体级语义SLAM!支持单/双目+LiDAR!

点击上方“3D视觉工坊”,选择“星标”干货第一时间送达来源丨计算机视觉life作者丨王敬文1.摘要最近,伦敦大学学院开源了面向对象的SLAM系统DSP-

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

b2f8a353cc6bd7f0cea8e4d30d13d333.png

来源丨 计算机视觉life

作者丨王敬文

1. 摘要

最近,伦敦大学学院开源了面向对象的SLAM系统DSP-SLAM,它为前景对象构建了一个丰富而精确的稠密3D模型的联合地图,并用稀疏的地标点来表示背景。可以在3种不同的输入模式下以每秒10帧的速度工作:单目、双目或双目+激光雷达。与最近基于深度先验的重建方法相比,物体姿态和形状重建有了改进,并减少了KITTI数据集上的相机跟踪漂移。

项目网站:https://jingwenwang95.github.io/dsp-slam/

代码:https://github.com/JingwenWang95/DSP-SLAM

demo如下所示

84d8a96c1af82c184ac4bd6e00694815.gif

最终建立的地图如下所示

0315be180f2188c3a1f3deed46080728.png

2. 背景

随着计算机视觉和深度学习的发展,SLAM也从传统的纯几何表示进入了语义和物体级别的场景理解。语义和物体级别的理解对于许多更高级的应用十分重要,例如家庭机器人,自动驾驶等。已有的物体级SLAM算法,例如SLAM++[1],MaskFusion[2], CubeSLAM[3]在物体表示方面存在一些不足:

1. 以SLAM++为代表的先驱工作需要预先建立精确的物体模型数据库,在运行时识别并利用ICP来估计物体的6D位姿。这类方法可以实现十分精确和完整的物体级地图的创建并且可以通过位姿图优化和回环检测来获得全局一致的地图,但是只能受限于预先重建过的物体。

2. 以MaskFusion为代表的工作克服了以上工作需要预先建立物体CAD模型的缺点,利用2D实例分割的结果分别在线重建和跟踪不同的物体以及背景。这类方法可以精确重建任意新见到的物体,但是由于重建是在线进行的,无法得到完整的物体重建,例如物体的背面,被遮挡以及深度缺失部分的。

3. 最后,以CubeSLAM为代表的工作把物体建模为简单的3D几何图形,例如立方体,球体或椭球体。这类方法可以完整地重建任意新见到的物体,但是重建结果丢失了很多物体形状的细节。

这篇工作解决的问题就是利用物体的形状先验来同时实现以上三个目标,即:对新见到的物体精确且完整的重建。

8ae28f6b519ebc3dac76165b3fe5d205.png

3. 方法

基于形状先验的物体重建

我们使用预训练的DeepSDF作为形状先验,将同一个类别的物体形状表示为64维向量。物体的重建可以被转化为对物体形状向量和7D位姿的联合优化,使得形状和位姿最适合于当前的观测。我们利用稀疏点云观测和2D分割结果作为观测,最小化表面损失和深度渲染损失函数。为了保证SLAM的实时性,我们使用高斯牛顿法求解整个优化过程,并且详细推导了所需要的雅可比矩阵。

ec1fe4f7057dcd425328651b85b97df7.png

物体SLAM

我们进一步将物体重建过程嵌入到一个完整的物体级SLAM系统之中。我们利用ORB-SLAM2作为SLAM骨架,为每一帧提供相机位姿和稀疏点云。对于每一个关键帧,我们进行物体检测,对于检测到的物体得到2D检测框,分割结果和稀疏点云。对于新观测到的物体基于这些观测进行物体重建;对于已重建过的物体更新位姿并加入BA因子图中。随后,联合BA同时优化相机位姿,地图点和物体位姿。

0f4cd6b94d477d4f7967a92d91c1cf6c.png

重建结果

616409c22bd2b544c26275d68f93a41f.png

9483db071b9ded1d8462c87d124f5a5e.png

[1] Renato F. Salas-Moreno, Richard A. Newcombe, Hauke Strasdat, Paul H.J. Kelly, and Andrew J. Davison. Slam++: Simultaneous localisation and mapping at the level of objects. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013.

[2] M. Runz, M. Buffier, and L. Agapito. Maskfusion: Real-time recognition, tracking and reconstruction of multiple moving objects. In 2018 IEEE International Symposium on Mixed and Augmented Reality (ISMAR), pages 10–20, Oct 2018.

[3] Shichao Yang and Sebastian Scherer. Cubeslam: Monocular 3-d object slam. IEEE Transactions on Robotics, 35(4):925–938, 2019.

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

14789635cf5119e0a19c10b39ba1e046.png

▲长按加微信群或投稿

e40c54885e5857d6f77532314422d399.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

2ae999050e66d48e21dddc3aecbc3e3a.png

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  



推荐阅读
author-avatar
手机用户2502895461
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有