论文阅读：《RethinkingPseudoLiDARRepresentation》

作者：型尚体验公馆_760 | 来源：互联网 | 2023-07-30 12:45

RethinkingPseudo-LiDARRepresentation该论文是商汤2020年发表在ECCV上的一篇论文。2018年的CVPR论文《Pseudo-LiDARFrom

Rethinking Pseudo-LiDAR Representation

该论文是商汤2020年发表在ECCV上的一篇论文。2018年的CVPR论文《Pseudo-LiDAR From Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving》使用视觉伪点云来进行单目3D目标检测&＃xff0c;获得了大幅性能提升&＃xff0c;并将性能提升归因为数据表达形式。商汤在该论文中提出了不一样的观点。

论文链接&＃xff1a;https://arxiv.org/abs/2008.04582
论文代码&＃xff1a;https://github.com/xinzhuma/patchnet

1. 论文动机

视觉3D检测方法在当时基本可以分成两个“流派”&＃xff1a;基于图像表征的方法和基于伪点云表征的方法。

基于图像表征的方法中&＃xff0c;比较出名的有Mono3D、MonoDIS、M3D-RPN等。从图像预测目标3D信息的难点在于&＃xff0c;2D图像到3D世界的映射是一个ill-posed problem&＃xff0c;天然少了一维深度信息。所以基于图像表征的方法大体上是通过增加人工设计的先验知识来辅助网络学习&＃xff0c;比如目标尺寸、地平面假设、2D检测框约束。

基于伪点云表征的方法最开始由论文《Pseudo-LiDAR From Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving》提出&＃xff0c;后文统一将该方法简称为pseudo-LiDAR。pseudo-LiDAR极大地缩小了视觉3D和激光3D检测方法之间的差距&＃xff0c;其方案非常简单明了&＃xff0c;就是模仿激光3D检测的Pipeline&＃xff0c;但激光3D检测输入的是点云数据&＃xff0c;没有怎么办&＃xff1f;直接用单目深度生成伪点云&＃xff0c;然后再用现成的激光3D检测模型从伪点云中进行目标检测。从结果上看&＃xff0c;基于伪点云表征的方法性能普遍高于基于图像表征的&＃xff0c;虽然pseudo-LiDAR作者指出两类方法性能差距主要是数据表征方式的不同&＃xff0c;但该观点一直缺乏直接证据的支撑&＃xff0c;其正确性值得考究。

为了弄清基于伪点云表征的方法为什么能取得这么大的性能提升&＃xff0c;作者构建了一个名为PatchNet-vanilla的模型&＃xff0c;除了输入数据表征方式不同外&＃xff0c;其余和pseudo-LiDAR保持一直&＃xff0c;是pseudo-LiDAR的等价实现。通过该等价模型&＃xff0c;作者用实验证明了数据表征形式和3D检测性能没有任何关系&＃xff0c;真正起作用的是图像坐标系到激光坐标系的坐标转换。 PointNet是一种针对point的CNN&＃xff0c;相比标准CNN的发展还没有那么充分&＃xff0c;如果摆脱伪点云输入格式的限制&＃xff0c;那么就能使用更成熟的CNN结构&＃xff0c;理论上可以获得比PointNet更好的性能&＃xff0c;基于这个假设&＃xff0c;作者提出了PatchNet&＃xff0c;也确实获得了超出pseudo-LiDAR的性能表现。

2. 方法介绍

方法分成两部分来介绍&＃xff1a;PatchNet-vanilla和PatchNet&＃xff0c;第一个模型主要是为了验证输入数据表征形式对性能的影响&＃xff0c;第二个模型是PatchNet-vanilla的增强版&＃xff0c;主要是为了达到更好的性能。

2.1 PatchNet-vanilla

作者将pseudo-LiDAR分成四个步骤&＃xff1a;
Step1&＃xff1a;深度估计 给定一张单目图像或双目图像对&＃xff0c;使用独立的模型预测每个像素 $(u, v)$ 对应的深度值 $d$ 。
Step2&＃xff1a;2D检测 使用另一个CNN生成2D目标的区域提议。
Step3&＃xff1a;3D数据生成 根据Step2生成的区域提议将感兴趣区域从Step1生成的深度图中抠下来&＃xff0c;然后利用相机内参将深度值转化为3D世界坐标 $(x, y, z)$ 。
Step4&＃xff1a;3D目标检测 将Step3生成的伪点云视为激光信号&＃xff0c;并使用PointNet预测结果。PointNet将点云视为无序点集 ${x1,x2,…,xn}\{x_1,x_2,\dots,x_n\}$ &＃xff0c;并通过一个集合函数 $f$ 将点集映射到输出向量&＃xff1a; $f(x1,x2,…,xn)&＃61;γ(max⁡i&＃61;1,…,n{h(xi)})(1)f(x_1,x_2,\dots,x_n)&＃61;\gamma(\max_{i&＃61;1,\dots,n}\{h(x_i)\}) \tag{1}$ 其中 $γ\gamma$ 和 $h$ 是MLP。

PatchNet-vanilla的前三步和pseudo-LiDAR完全一样&＃xff0c;第四步会有所差别。如图2所示&＃xff0c;PatchNet-vanilla将 $M$ 个3D点重构成 $N×N×3N\times N \times 3$ 的图像块&＃xff0c;作为PatchNet-vanilla的输入&＃xff0c;然后可以使用一个 $1×11\times 1$ 接收域的2D卷积层以及一个全局最大池化来实现式&＃xff08;1&＃xff09;一样效果的函数。最终性能如表1所示&＃xff0c;可以看到PatchNet-vanilla获得了和pseudo-LiDAR几乎一样的性能&＃xff0c;这也证明了伪点云的数据表征形式不是必要的。

2.2 PatchNet

在PatchNet中&＃xff0c;首先训练两个CNN分别用于预测2D框和深度图&＃xff0c;对于每个检测到的2D目标框&＃xff0c;从深度图中抠出对应的区域&＃xff0c;利用相机内参将深度值转换成3D空间坐标&＃xff08;得到Fig.3中的cropped patches&＃xff09;。紧接着用一个主干CNN提取这些ROI的深层特征&＃xff0c;然后使用mask global pooling分离出前景目标特征&＃xff0c;最后通过一个检测头来进行回归目标的3D框 $(x,y,z,h,w,l,θ)(x,y,z,h,w,l,\theta)$ 。

mask global pooling是论文提出了一种增强版global pooling方式&＃xff0c;利用一个二值掩模&＃xff08;通过卡阈值的方式从深度图中获得&＃xff09;只对前景目标的特征进行global pooling操作&＃xff0c;以获得更加鲁棒的特征。

检测头则是针对KITTI定制化设计的&＃xff0c;简单、中等、困难样本分别对应一个检测头&＃xff0c;因此增加了一个样本困难程度分类器。

3. 实验结果

3.1 什么才是影响检测性能的关键因素

PatchNet效果如表2所示&＃xff0c;其中AM3D是另一种基于伪点云的视觉3D检测方法&＃xff0c;它通过将RGB值和伪点云融合的方式提升性能。作者将pseudo-LiDAR和AM3D的伪点云表征方式替换成图像表征方式&＃xff0c;分别对应PatchNet-vanilla和PatchNet-AM3D&＃xff0c;可以看到两种方法在替换数据表征方式后的性能都基本持平。说明数据表征不是影响3D检测性能的关键因素。

为了验证输入模型的数据中哪些字段是真正起作用的&＃xff0c;作者进行了表3中的实验。从前3行实验数据可以看出&＃xff0c;像素对应的世界坐标值 $(x, y, z)$ 每一维对于3D检测性能都有正面作用。但如果直接输入视觉深度的预测值 $(u, v, z)$ &＃xff0c;性能是远远不如直接输入世界坐标的 $(x, y, z)$ 。 $(u, v, z)$ 和 $(x, y, z)$ 之间的差了一步像素坐标系到相机坐标系的坐标转换&＃xff0c;因此作者提出&＃xff1a;相比数据本身的表征&＃xff0c;坐标系转换才是影响性能的关键因素。

但这个结论本人持怀疑态度&＃xff0c;像素坐标系到相机坐标系转换只涉及相机内参&＃xff0c;以及相机坐标系到激光坐标系的转换矩阵&＃xff0c;我不觉得区区几个相机参数CNN都没法过拟合。虽然说KITTI每天都会对传感器进行重新标定&＃xff0c;但理论上在传感器的安装位置和姿态没有有明显变化的条件下&＃xff0c;标定参数数值的变化幅度也非常有限&＃xff0c;除非采集数据过程中由于设备老化或者碰撞事故导致传感器架设发生较大变化。如果要作者的结论要成立&＃xff0c;我觉得至少得加一个实验&＃xff0c;证明模型无法学习 $(u, v, z)$ 到 $(x, y, z)$ 的映射才可以。

3.2 PatchNet的优化点

作者提出&＃xff0c;相比PointNet这类新兴的针对点云的3D主干&＃xff0c;标准的2D主干发展的更成熟&＃xff0c;能够获得更好的性能&＃xff0c;不同主干的性能对比结果如表4所示。

mask global pooling的消融实验结果如表5和图4所示&＃xff0c;可以看到分离前景目标还是能够将模型的注意力集中到目标本身。

第三点改进就比较定制化了&＃xff0c;针对KITTI数据集简单/中等/困难设立3个检测头分别预测&＃xff0c;不过作者后来发现&＃xff0c;使用距离对不同目标进行分区检测能够获得更好的性能&＃xff0c;感觉上是一种3D空间中的多尺度策略。

3.3 横向对比结果

PatchNet和其他视觉3D检测算法的性能对比如下表所示&＃xff0c;其中PL-FPointNet就是前文表格中的psedudo-LiDAR方法。

推荐阅读

算法
DNNBrain：北师大团队出品，国内首款用于映射深层神经网络到大脑的统一工具箱...

导读深度神经网络(DNN)通过端到端的深度学习策略在许多具有挑战性的任务上达到了人类水平的性能。深度学习产生了具有多层抽象层次的数据表示;然而，它没有明确地提供任何关 ... [详细]

蜡笔小新 2024-09-26 12:34:26
tree
深度强化学习Policy Gradient基本实现

全文共2543个字，2张图，预计阅读时间15分钟。基于值的强化学习算法的基本思想是根据当前的状态，计算采取每个动作的价值，然 ... [详细]

蜡笔小新 2024-09-25 17:01:10
web
慢雾招募令，加入未来的安全独角兽

大家好，我们是慢雾安全团队。 ... [详细]

蜡笔小新 2024-09-25 11:29:54
split
开发笔记:Python之父重回决策层

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python之父重回决策层相关的知识，希望对你有一定的参考价值。在GuidovanRossum(吉多· ... [详细]

蜡笔小新 2024-09-29 18:24:25
split
计算机考研上机必备基础知识小白进阶之路

1、上机的形式全国所有院校的机试都大同小异，大部分院校都有自己的OJ系统，一般通过OJ在线做题的方式来进行考核，一般要求在2-3个小时解决5-8道算法题。所谓OnlineJud ... [详细]

蜡笔小新 2024-09-29 12:14:25
web
42VERSE & 圆圈徽章，Web3 社交的流派之争——针对两个国内案例的调研

01 行业分析本文所研究的细分赛道为：Web3应用层——社交与内容场景——DID/创新场景（以元宇宙3D空间为 ... [详细]

蜡笔小新 2024-09-29 12:10:23
main
Linux网络编程：自己动手写高性能HTTP服务器框架（二）

github：https:github.comfroghuiyolandaIO模型和多线程模型实现多线程设计的几个考虑在我们的设计中，mainre ... [详细]

蜡笔小新 2024-09-29 11:22:09
main
handler机制_Handler机制与原理

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Handler机制与原理相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-27 13:02:12
settings
怎么使用提高开发效率的VSCode插件

这篇文章将为大家详细讲解有关怎么使用提高开发效率的VSCode插件，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所 ... [详细]

蜡笔小新 2024-09-26 19:40:42
settings
python 英文关键词提取_如何提取文章的关键词（Python版）

项目需求：我们采集来的文章没有关键词，在发布的时候无法设定标签，我们通过代码自动提取出文章的关键词，达到对数据加工的目的。 ... [详细]

蜡笔小新 2024-09-26 10:32:12
settings
生成模型自编码器（Autoencoder，AE）

自编码器（Autoencoder，AE）基本意思就是一个隐藏层的神经网络，输入输出都是x，并且输入维度一定要比 ... [详细]

蜡笔小新 2024-09-26 10:19:40
settings
保姆级使用PyTorch训练与评估自己的HorNet网络教程

文章目录前言0.环境搭建&快速开始1.数据集制作1.1标签文件制作1.2数据集划分1.3数据集信息文件制作2.修改参数文件3.训练4.评估5.其他教程前言项目地址： ... [详细]

蜡笔小新 2024-09-25 16:40:17
tree
One Stage目标检测

在计算机视觉中，目标检测是一个难题。在大型项目中，首先需要先进行目标检测，得到对应类别和坐标后，才进行之后的各种分析。如人脸识别，通常是首先人脸检测，得到人脸的目标框，再对此目标框 ... [详细]

蜡笔小新 2024-09-25 10:55:17
tree
Yolov3模型框架darknet研究（一）在windows + VS上运行darknet

在windows上运行darknet目标检测框架可以借助VS强大、方便的debug功能来逐行跟踪代码，藉此来熟悉其内部运行原理。很简单，先进入http ... [详细]

蜡笔小新 2024-09-24 20:31:21
heap
IntelliJ IDEA 卡成球了？

在和同事的一次讨论中发现，对IntelliJIDEA内存采用不同的设置方案，会对IDE的速度和响应能力产生不同的影响。Don’tbeaScroogeandgiveyourIDEso ... [详细]

蜡笔小新 2024-09-24 19:37:16

型尚体验公馆_760

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章