热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

CenterPoint:3D目标检测与跟踪

点击上方“3D视觉工坊”,选择“星标”干货第一时间送达作者丨元气满满的打工人来源丨CV研习社文章导读导读:随着自动驾驶行业热度的不断升温,

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

15a26b7e18d6dfd309d931b8e752101f.png

作者丨元气满满的打工人

来源丨CV研习社

文章导读

导读:随着自动驾驶行业热度的不断升温,也带动了其他技术的不断发展。其中计算机视觉作为其核心技术也在快速的迭代。3D目标检测技术小编之前已经分享过几篇文章,小编今天要分享的论文是CenterPoint:Center-based 3D Object Detection and Tracking。该方法同时包含检测和追踪二种技术,让我们一起学习一下吧。

Part 01

目标检测和目标跟踪的联系和区别

联系:

(1)目标跟踪需要依靠检测,目标跟踪必须先通过检测实现目标的定位,才能实现后续的跟踪。

(2)如果将动态的检测过程按照一定的时间间隔进行拆分(如一帧图像),再进行静态的检测,则目标检测可以实现类似目标跟踪的效果。

区别:

(1)目标跟踪比目标检测略复杂一些,目标检测一般为静态的检测,而目标跟踪通常为动态定位。

(2)目标检测一般利用模型中的特征信息或先验知识在单帧图像中找到感兴趣的区域,而目标跟踪是根据已有的目标的位置信息,在后续的跟踪过程中匹配最佳位置,重点在于目标的匹配过程。

Part 02

Center-based表示的几点优势

(1)不同于bounding-box的方式,点没有内在的方向。因此可以减少目标检测器的搜索空间,同时允许backbone学习对象的旋转不变性和它们相对旋转的旋转方差。

(2)有利于简化下游的任务(跟踪),如果对象是点,则轨迹就是空间和时间下的路径,则网络就可轻松的预测连续帧之间的相对偏移,并连起来即可。

(3) 基于点的特征提取可以方便研究者设计一个速度更快且更有效的二阶段细化模块。

Part 03

CenterPoint网络的提出

文章提出了一个基于Center-based的二阶段的检测结合跟踪的模型CenterPoint。在第一阶段,使用关键点检测器检测对象的中心,并对检测框的3D尺寸、3D方向和速度进行回归。第二阶段,设计了记忆细化模块,对第一阶段产生的检测框,使用额外的点特征来进行细化。CenterPoint的网络结构图如下:

f71aec63e29236430391b21824db34a1.png

网络结构图

CenterPoint的性能表现:在Waymo和nuScenes二大公开数据集下进行了实验,center-based的方法相比box的方法有3-4mAP的精度增长,在检测任务中取得了较高的精度。在跟踪任务中,甚至比之前的方法高出了50%的精度。文章提到该方法能够实时推理,具有很好的学习价值。

Part 04

CenterPoint具体的实现方式

如下图所示(此图为论文v1版本的网络框架图,对应上面v2版本论文中框架图的a、b和c三部分),网络共有4个输出,基于类的Heatmap、3D目标的大小、旋转角和速度。

fa6aea9ec87ecffde954f4c50d69f576.png

论文v1版本的网络结构图

下面将对这4个模块进行逐一介绍。

Center heatmap head:在这里,作者参照了CenterNet中的热力图回归方式,并进行了一些改进。首先介绍一下CenterNet的热力图的回归方式。在CenterNet网络中对于一张3通道的大小为W×H的图像,最终会输出一张K通道,大小为(W/R)×(H/R)的热力图,其中R代表输出的步长,K为待检测目标的类别数。热力图如下图所示,热力图中的数值有2个,0和1。若数值为1,则代表图像中的该点即为检测框的中心点。若数值为0,则代表此区域为背景。

2ed1a5a30bde473359cceb5d671f08e6.png

热力图

由于3D点云稀疏的特性,3D目标的特征不会像2D中那样显著,如直接使用CenterNet在点云中生成热力图,则热力图中必定大部分都是背景。因此文章的改进在于增加了目标热力图的正向监督,即扩大每个地面实况对象中心渲染的高斯峰值。具体的做法是设置高斯半径为σ = max(f(wl), τ ),其中τ = 2为最小高斯半径值,f为CenterNet中定义的半径函数。

通过这种方式,CenterPoint 保持了基于中心的目标分配的简单性,同时该模型从附近的像素获得了更密集的监督。

Regression heads:将一些对象属性存储在对象的中心特征上,包括sub-voxel位置细化、离地高度、3D大小和偏航旋转角。Sub-voxel位置细化减少了backbone网络的体素化和跨步的量化误差。离地高度hg有助于在3D中定位对象,并添加由map-views投影删除的缺失高程信息。方向预测使用偏航角的正弦和余弦作为连续回归目标。并结合框大小,这些回归头提供了3D边界框的完整状态信息。

Velocity head and tracking:为了通过时间跟踪对象,网络学习预测每个检测到的对象的二维速度估计 v ∈ R2 作为额外的回归输出。速度估计是特殊的,因为它需要两个输入map-views的当前和前一个time-step。它预测当前帧和过去帧之间对象位置的差异。与其他回归目标一样,速度估计对当前time-step下目标位置的真值使用L1 损失进行监督。

二阶段的CenterPoint:网络第二阶段的处理,将根据第一阶段的将根据第一阶段的检测框信息和特征图信息,从预测边框的每个面的三维中心提取一个点特征。对于每个点,使用双线性插值从主干map-views输出M中提取一个特征,并将点特征输入全连接网络MLP对结果进行细化。

第二阶段在一阶段CenterPoint 的预测结果之上预测与类别无关的置信度分数和进行目标框细化。置信度score的表示预测结果与真值之间的3D IoU,计算公式如下:

bf014bdc9f9a3ce0b9e66ee1303e71f6.png

网络训练时使用二进制交叉熵损失函数作为监督,公式如下所示,其中It为预测的置信度score:

1612e9b0a62e893b11949ead2ae896e0.png

Part 05

实验

作者就检测和追踪二个任务分别在公开数据集上进行了实验。

对于检测任务:在Waymo数据集上,模型在level2上在对车辆和行人的检测中分别取得了71.8和66.4的mAPH精度值,比先前的方法有一定的提升。在nuScenes数据集上,模型在多尺度输入和多模型集成方面比去年的冠军模型CBGS高出了5.2%的map和2.2%的NDS。结果如下表所示:

528830485c8ea689469444cd5271b8e4.png

a94aafe67df7b4ad6e2f650fd7b58854.png

对于跟踪任务:在Waymo数据集中,本文的模型与该领域的baseline模型AB3D进行了比较,结果有明显的提升。在nuScenes中,同样和AB3D模型和先前最好的模型进行了比较,结果同样有明显的提升。具体结果如下表所示:

2118894b0fa61b840e8b40aaf11a2fcc.png

168aef83bcaf2af6a85f3b8447df33ed.png

Part 06

总结

文章提出了一种Center-based的雷达点云的3D目标检测和跟踪的框架。方法的结构较为简单,取得了检测和跟踪二个任务上的效果提升。在推理速度上,文章中多次提到能够达到实时,但其使用的是桌面级显卡Titan RTX,而通常模型会在移动端使用。因此,其实时性有待验证,但不可否认文章的方法具有一定的创新性,有较强的学习价值。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

70c09c946f8e064518425d60c6ed8eb8.png

▲长按加微信群或投稿

20c47729f4a0233f9ac1cba0939029c2.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

fb66012e3e1a7a4c75d4ae55fda2f261.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  



推荐阅读
  • 【高德地图Android开发套件】详尽视频教程
    前两天参加了高德在北航举办的公开课,感觉非常不错。完成老师布置的作业之后,还顺利地拿到了高德开发者认证证书!!现在来跟大家分享一下,如何快速学习【高德地图AndroidSDK】的开发。一天包会!连 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 深入解析 Lifecycle 的实现原理
    本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理,帮助开发者更好地理解和使用 Lifecycle,避免常见的内存泄漏问题。 ... [详细]
  • 解决Bootstrap DataTable Ajax请求重复问题
    在最近的一个项目中,我们使用了JQuery DataTable进行数据展示,虽然使用起来非常方便,但在测试过程中发现了一个问题:当查询条件改变时,有时查询结果的数据不正确。通过FireBug调试发现,点击搜索按钮时,会发送两次Ajax请求,一次是原条件的请求,一次是新条件的请求。 ... [详细]
  • 第二十五天接口、多态
    1.java是面向对象的语言。设计模式:接口接口类是从java里衍生出来的,不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]
  • 本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法,文章提供了多种实用技巧,帮助用户高效地生成高质量的动态图像视频。此外,还探讨了不同视频编码器的选择及其对输出文件质量的影响,为读者提供了全面的技术指导。 ... [详细]
  • 在软件开发过程中,经常需要将多个项目或模块进行集成和调试,尤其是当项目依赖于第三方开源库(如Cordova、CocoaPods)时。本文介绍了如何在Xcode中高效地进行多项目联合调试,分享了一些实用的技巧和最佳实践,帮助开发者解决常见的调试难题,提高开发效率。 ... [详细]
  • 您的数据库配置是否安全?DBSAT工具助您一臂之力!
    本文探讨了Oracle提供的免费工具DBSAT,该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告,DBSAT帮助用户识别潜在的安全漏洞,并提供针对性的改进建议,确保数据库系统的稳定性和安全性。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 题目解析给定 n 个人和 n 种书籍,每个人都有一个包含自己喜好的书籍列表。目标是计算出满足以下条件的分配方案数量:1. 每个人都必须获得他们喜欢的书籍;2. 每本书只能分配给一个人。通过使用深度优先搜索算法,可以系统地探索所有可能的分配组合,确保每个分配方案都符合上述条件。该方法能够有效地处理这类组合优化问题,找到所有可行的解。 ... [详细]
  • 魅族Flyme 7正式发布:全面解析与亮点介绍
    在22日晚的发布会上,魅族不仅推出了m15、15和15 Plus三款新机型,还正式发布了全新的Flyme 7系统。Flyme 7在保持流畅体验的基础上,进一步增强了功能性和实用性,为用户带来更加丰富的使用体验。首批适配包已准备就绪,将逐步推送给现有设备。 ... [详细]
  • 腾讯优图技术突破,人脸识别准确率跃升至99.80%新高
    近日,腾讯优图实验室在国际知名的人脸识别基准测试LFW中取得重大突破,其在无约束条件下的人脸验证测试中,准确率达到了前所未有的99.80%。这一成就标志着人脸识别技术在复杂环境下的应用迈上了新台阶,为未来的智能安防、身份认证等领域提供了强有力的技术支持。 ... [详细]
  • 近期,为编制《2018中国人工智能应用与生态研究报告》,中国软件网对国内人工智能产业的应用现状、平台建设和生态系统进行了深入调研。本报告详细分析了当前人工智能企业的发展阶段,并对其未来前景进行了全面评估。研究发现,人工智能技术在多个领域取得了显著进展,但同时也面临诸多挑战,如数据安全、技术成熟度和人才短缺等。报告还探讨了政策支持、行业合作和技术突破对推动人工智能产业发展的关键作用。 ... [详细]
  • 本题库精选了高难度的C语言指针与字符串练习题,涵盖了复杂的指针操作和字符串处理技巧。特别包括了基于NMEA-0183协议的GPS数据处理题目,旨在帮助读者深入理解和掌握C语言在实际应用中的高级用法。 ... [详细]
  • 本文探讨了一种创新的RGBD多模态融合技术在人脸识别中的应用,该方法通过深度学习算法有效整合了不同模态数据的共有及独特特征,显著增强了系统的识别精度与鲁棒性。此技术特别适用于需要高安全性和准确性的多模态交互场景,如智能监控和身份验证系统。 ... [详细]
author-avatar
Eva---LiuJ
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有