当前位置: 开发笔记 > 编程语言 > 正文

IDA3D:基于立体视觉的深度感知3D目标检测网络（CVPR2020）

作者：cqj6832154 | 来源：互联网 | 2023-08-28 12:11

点击上方“3D视觉工坊”，选择“星标”干货第一时间送达标题：IDA-3D:Instance-Depth-Aware3DObjectDetectionfr

点击上方“3D视觉工坊”&＃xff0c;选择“星标”

干货第一时间送达

标题&＃xff1a;IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving

作者&＃xff1a;Wanli Peng∗ Hao Pan∗ He Liu Yi Sun†

机构&＃xff1a;Dalian University of Technology, China

来源&＃xff1a;CVPR 2020

编译 : 万应才

审核&＃xff1a;wyc

摘要

大家好&＃xff0c;今天为大家带来的文章是IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving

三维目标检测是自主驾驶和虚拟现实中一项重要的场景理解任务。基于激光雷达技术的方法效率比较高&＃xff0c;但是激光雷达价格昂贵。考虑到更一般的场景&＃xff0c;在三维数据集中没有激光雷达数据的情况下&＃xff0c;我们提出了一种基于立体视觉的三维目标检测方法&＃xff0c;该方法不依赖于激光雷达数据作为输入&＃xff0c;也不依赖于作为训练的监督&＃xff0c;而只以带有相应标注的三维边界框的RGB图像作为训练数据。由于目标的深度估计是影响三维目标检测性能的关键因素&＃xff0c;本文介绍了一个实例深度提取&＃xff08;IDA&＃xff09;模块&＃xff0c;该模块通过实例深度感知、视差自适应和匹配代价重加权&＃xff0c;准确地预测出三维包围盒中心的深度。此外&＃xff0c;我们的模型是一个端到端的学习框架&＃xff0c;不需要多阶段或后处理算法。我们对KITTI基准进行了详细的实验&＃xff0c;并与现有的基于图像的方法进行了比较&＃xff0c;取得了令人印象深刻的改进。

背景与贡献

单目生成双目

随着最近几年单目深度的发展&＃xff0c;从单张图像预测深度的精度越来越高&＃xff0c;但是相比双目匹配算法(stereo match)依然有差距。作者提出一种单目生成双目图像然后用双目匹配算法。单目生成双目方法原理是通过预测的单目深度设置一个虚拟的基线然后将原图生成为双目的另一图像。

我们作出以下贡献&＃xff1a;

1.我们提出了一个基于双目的三维物体检测端到端学习框架&＃xff0c;该框架不依赖于深度图像作为输入或训练&＃xff0c;也不需要多阶段或后处理算法。

2.我们引入了实例深度感知(IDA)模块&＃xff0c;该模块通过实例深度感知、视差自适应和匹配成本重加权&＃xff0c;准确预测三维边界框中心的深度&＃xff0c;从而提高了三维对象检测的准确性。

3.我们提供了KITTI 3D数据集[7]上的详细实验&＃xff0c;与没有深度地图监督的基于双目的方法相比&＃xff0c;达到了最先进的性能。

算法流程

1.整体结构

本文提出了一种立体三维物体检测方法&＃xff0c;其训练数据仅为带有相应标注的三维边界盒的RGB图像&＃xff0c;不以激光雷达获取的深度作为输入&＃xff0c;也不作为中间监督。本文提出方法不用手工设计立体视觉算法的任何步骤&＃xff0c;而是使用深度学习学习从图像对到物体三维边界盒的端到端映射。我们认识到三维物体检测误差完全来自于三维边界盒中心深度估计z的误差&＃xff0c;而不是将机器学习架构构建为一个黑盒子&＃xff0c;因此我们单独设计一个回归模型来获得实例深度。在本文中&＃xff0c;三维边界盒中心的坐标z也称为实例深度。此外&＃xff0c;我们通过实例深度感知、视差适应和匹配代价重估来指导目标深度估计的结构设计。因此&＃xff0c;我们学习了一种有效的实例深度感知三维物体检测模型(IDA-3D)。

图1 整体结构本文提出的IDA-3D概述。Top: Stereo RPN以一对左右图像作为输入和输出对应的左右建议对。通过立体RPN&＃xff0c;预测三维包围盒的位置、尺寸和方向。Bottom: Instance-depth-aware模块构建一个4D cost volume&＃xff0c;并执行3DCNN来估算一个3D边框中心的深度。

2. 方法

本文首先提取一条感兴趣的区域(RoI)为每一个对象在左右图像的立体的RPN模块受[14],其目的是为了避免复杂的左派和右派之间的所有像素匹配图像和消除不利影响的背景对象检测。stereo RPN为左右图像中大小和位置相同的每个对象创建一个联合RoI&＃xff0c;以确保每对RoI的起始点。在应用RoIAlign[8]分别在左和右特征图,左边和右边RoI特征然后连接和送入立体声回归网络预测的位置,方向和尺寸的3 d边界框,分别在3 d边界框的位置可以用其中心位置(x, y, z)。自3 d对象的中心有一个大动态范围的深度及其偏差占大多数的差异3 d对象检测,在本文中&＃xff0c;我们单独设计了IDA模块来获取一个三维边界盒中心的深度&＃xff0c;也称为实例深度。在立体回归网络中&＃xff0c;我们还预测了二维边界盒作为推理时IDA模块的输入。

2.1 实例 Instance Disparity (Depth) Estimation

我们使用了两个连续的三维卷积层&＃xff0c;每个层之后是一个三维最大池化层&＃xff0c;以学习和执行从成本量中对特征表示的向下采样。由于视差与深度成反比&＃xff0c;且均表示物体的位置&＃xff0c;我们将视差转换为深度表示后&＃xff0c;形成成本体积。依靠网络正则化&＃xff0c;最终将3D CNN下采样的特征合并为3D box center的深度概率。将每个深度z按其归一化概率加权求和&＃xff0c;最终得到三维盒中心的深度&＃xff0c;如公式1所示&＃xff0c;其中N为深度级别数&＃xff0c;P (i)为归一化概率。

图2 IDA模型的参数。D表示深度级别的数目。

2.3 Instance Disparity (Depth) Adaptation

以往的研究大多是对视差估计的精度进行优化。而对于相同视差误差&＃xff0c;深度误差随距离呈二次增长。这意味着视差误差对远目标深度估计的影响大于近目标深度估计的影响。这是导致3D对象检测效果不佳的关键因素。为了使模型和损失函数更侧重于远处的目标&＃xff0c;我们将成本量中的视差等级由均匀量化改变为非均匀量化&＃xff0c;即目标距离越远&＃xff0c;相邻两个视差等级之间的划分单元越小。这样&＃xff0c;就可以更精确地估计一个遥远物体的深度。

图3 偏差与深度的关系

2.4 Matching Cost Reweighting

为了惩罚不是对象实例唯一的深度级别&＃xff0c;并提升具有高概率的深度级别&＃xff0c;我们重新设置匹配代价的权重。权重分为两部分,第一部分(成本4 d所示的图1)4 d体积包装左派和右派之间的差异特征映射特征图在每个差距水平和第二部分(见图1中的3 dcnn) 3 dcnn用人机制的深度关注。带有这些残差feature map的4D体会使后续的3D CNN考虑到一定深度级别左右feature map的差异&＃xff0c;细化深度估计&＃xff0c;而视差注意机制则设置每个channel的权重ri。通过计算各视差上左右特征图的相关性得到的相关分数ri定义为:

2.5 3D Object Detection

我们设计了一个六平行的全连接网络&＃xff0c;并以左右连接的RoI特征作为输入。在确定了实例的深度后&＃xff0c;可以根据其投影计算出左摄像机坐标系中物体中心的坐标(x, y)&＃xff0c;其中(cu, cv)为摄像机中心&＃xff0c;fu, fv为水平焦距和垂直焦距。从Eq. 5中可以看出&＃xff0c;深度估计的结果会影响对三维盒中心水平和垂直位置的估计&＃xff0c;这说明深度估计在物体检测中起到了重要的作用。

图4 目标导向与视角导向之间的关系

主要结果

表1 KITTI验证集上car类的APbev / AP3D (in %)&＃xff0c;其中S为输入双目图像对&＃xff0c;M为输入单目图像。

图5 在KITTI数据集中对几个场景的定量结果。第一行是ground truth 3D box和投影到图像平面的预测3D box。为了便于观察&＃xff0c;我们还将检测结果显示在点云上。预测结果用黄色表示&＃xff0c;地面真实值用蓝色表示。

图 6不同视差量化策略的深度估计误差。

图7 匹配成本调整权重的改进。

相关资源

Project: https://github.com/swords123/IDA-3D

点击阅读原文&＃xff0c; 即可获取本文下载链接。

本文仅做学术分享&＃xff0c;如有侵权&＃xff0c;请联系删文。

下载1

在「3D视觉工坊」公众号后台回复&＃xff1a;3D视觉&＃xff0c;即可下载 3D视觉相关资料干货&＃xff0c;涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复&＃xff1a;3D视觉github资源汇总&＃xff0c;即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复&＃xff1a;相机标定&＃xff0c;即可下载独家相机标定学习课件与视频网址&＃xff1b;后台回复&＃xff1a;立体匹配&＃xff0c;即可下载独家立体匹配学习课件与视频网址。

重磅&＃xff01;3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信&＃xff0c;可申请加入3D视觉工坊-学术论文写作与投稿微信交流群&＃xff0c;旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群&＃xff0c;目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注&＃xff1a;研究方向&＃43;学校/公司&＃43;昵称&＃xff0c;例如&＃xff1a;”3D视觉 &＃43; 上海交大 &＃43; 静静“。请按照格式备注&＃xff0c;可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球&＃xff1a;针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕&＃xff0c;更有各类大厂的算法工程人员进行技术指导。与此同时&＃xff0c;星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息&＃xff0c;打造成集技术与就业为一体的铁杆粉丝聚集区&＃xff0c;近3000星球成员为创造更好的AI世界共同进步&＃xff0c;知识星球入口&＃xff1a;

学习3D视觉核心技术&＃xff0c;扫描查看介绍&＃xff0c;3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用&＃xff0c;麻烦给个赞和在看~

推荐阅读

const
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
go
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
chat
校园表白墙微信小程序，校园小情书、告白墙、论坛，大学表白墙搭建教程

小程序的名字必须和你微信注册的名称一模一样在后台注册好小程序。mp.wx-union.cn后台域名https。mp.wx-union.cn ... [详细]

蜡笔小新 2023-10-17 13:53:34
go
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
list
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
list
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
go
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
express
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
const
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
const
利用RxJava实现的事件总线（Event Bus）及其使用方法介绍

本文介绍了RxJava在Android开发中的广泛应用以及其在事件总线（Event Bus）实现中的使用方法。RxJava是一种基于观察者模式的异步java库，可以提高开发效率、降低维护成本。通过RxJava，开发者可以实现事件的异步处理和链式操作。对于已经具备RxJava基础的开发者来说，本文将详细介绍如何利用RxJava实现事件总线，并提供了使用建议。 ... [详细]

蜡笔小新 2023-12-11 12:16:40
const
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
const
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
list
十大经典排序算法动图演示+Python实现

本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序，常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念，并提供了相关的名词解释。 ... [详细]

蜡笔小新 2023-12-10 19:28:59
go
AstridDAO 专访：波卡稳定币黑马 BAI

加入Pol ... [详细]

蜡笔小新 2023-10-17 18:14:14
chat
老牌医药收割AI红利：先投个15亿美元抢中国人才

萧箫发自凹非寺量子位报道|公众号QbitAI没想到，一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场，能看见不少熟悉的身影， ... [详细]

蜡笔小新 2023-10-17 17:40:25

cqj6832154

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章