yolomask的损失函数l包含三部分_Deep3Dbox复现笔记【附部分code】

作者：飘飘秀秀真人_562 | 来源：互联网 | 2023-08-22 12:54

好久没写文章了，假期特供~~如果你也关注自动驾驶的3dbox感知，题图一定很熟悉了，最近笔者就尝试复现了一下这篇经典的paperÿ

好久没写文章了&＃xff0c;假期特供~~

如果你也关注自动驾驶的3d box感知&＃xff0c;题图一定很熟悉了&＃xff0c;最近笔者就尝试复现了一下这篇经典的paper&＃xff0c;貌似百度Apollo的感知模块也包含了它----3D Bounding Box Estimation Using Deep Learning and Geometry。

一、文章思路与关键点分析

文章中的网络实现了从单目图像预测目标物体3D位置、大小以及朝向的功能。整个算法框架分为三个部分&＃xff1a;2D图像目标检测网络&＃43;目标大小姿态估计网络&＃43;目标3D中心点解算模块。

2D图像目标检测网络可以用经典的Faster RCNN、SSD以及YOLO系列&＃xff0c;文中采用的是MS-CNN。获得目标的2D框之后&＃xff0c;将它截取出来&＃xff0c;把这些小框resize到一定大小&＃xff0c;送进VGG网络来回归3D包围框的长L宽W高H以及朝向alpha。目标3D中心点解算模块就是用预测的HWL以及角度来计算3D包围框中心点的三维坐标&＃xff08;相机坐标系&＃xff09;。

后来许多工作都把第一二部分结合在一起&＃xff0c;在目标检测网络后面直接加了大小和朝向的回归分支&＃xff0c;所以整体框架又可以理解为&＃xff1a;2D图像目标检测以及大小姿态估计网络&＃43;目标3D中心点解算模块。复现过程中我也是沿着这个思路&＃xff0c;前面采用的是SSD&＃43;FPN&＃xff0c;后面的解算就是利用几何投影的关系来求解一个最小二乘方程组。

&＃xff08;1&＃xff09;2D图像目标检测以及大小姿态估计网络

这部分相对简单&＃xff0c;就是在网上找个目标检测网络源码&＃xff0c;在后面加回归分支就好了。同时在数据输入模块加上导入目标大小、朝向lable的代码。

这里需要注意一下&＃xff0c;朝向用kitti数据集label格式里的第4个参数来表示&＃xff0c;即alpha&＃xff0c;不要用最后的角度参数r_y&＃xff08;关于这些角度的定义&＃xff0c;大家自行查一下吧&＃xff09;。因为alpha与观察者的视角有关&＃xff0c;而r_y木有&＃xff0c;下图中车的r_y基本是相同的&＃xff0c;但随着观察者的相对位置变化&＃xff0c;alpha是变的&＃xff0c;对应图像中看到车的不同“样子”&＃xff0c;即不同特征&＃xff0c;所以用alpha角才合理。我在复现过程中由于不仔细&＃xff0c;一开始就直接回归r_y&＃xff0c;效果非常差。

还有一个注意点就是&＃xff0c;加回归角度的分支时&＃xff0c;实际是回归角度的正弦值以及余弦值&＃xff0c;不要忘了在fc层后加上L2 norm&＃xff0c;因为这样才归一化到三角函数的值域范围。

&＃xff08;2&＃xff09;目标3D中心点解算模块

首先&＃xff0c;求解中心点模块需要用到前面预测的H、W、L&＃xff0c;还需要KITTI label里最后那个角度r_y。然而&＃xff0c;我们刚才明明预测的是alpha呀&＃xff0c;肿么办呢&＃xff0c;木事木事&＃xff0c;两者可以转化呀。怎么转呢&＃xff0c;来&＃xff0c;放个链接讲得很清楚。

https://blog.csdn.net/cuichuanchen3307/article/details/80596689

终于一切准备好&＃xff0c;可以开始推导了~

已知相机内参矩阵

&＃xff0c;从目标坐标系&＃xff08;三维框中心为原点&＃xff0c;向前为z轴正方向&＃xff0c;向右是x轴正方向&＃xff0c;向下为y轴正方向&＃xff09;转到相机系&＃xff08;与KITTI的定义一样&＃xff0c;向前为z轴正方向&＃xff0c;向右是x轴正方向&＃xff0c;向下为y轴正方向&＃xff09;的旋转矩阵为

,目标系原点在相机系中的坐标为

&＃xff0c;则目标三维框的8个顶点可以用下面的公式转化为平面的图像坐标&＃xff1a;

其中&＃xff0c;[X,Y,Z]为目标系中三维框顶点坐标&＃xff0c;[x,y]为投影到图像坐标系的坐标&＃xff0c;

为归一化因子。

把上面公式的右边换一个写法&＃xff1a;

注意R可以用r_y角求得&＃xff0c;[X,Y,Z]可以直接根据预测的H、W、L写出来&＃xff0c;而[x,y]是由2D目标检测网络检测得到的2维框顶点坐标&＃xff0c;所以这里未知数是[Tx,Ty,Tz]。

为方便推导&＃xff0c;上面又可以写为&＃xff1a;

展开后有&＃xff1a;

论文中假设三维框的顶点投影到图上应该包含在图像目标2维框内&＃xff0c;故8个点投影出的x的最小值应该等于2D框的最小的x&＃xff0c;即左上点的x坐标&＃xff1b;8个点投影出的y的最小值应该等于2D框的最小的y&＃xff0c;即左上点的y坐标&＃xff1b;8个点投影出的x的最大值应该等于2D框的最大的x&＃xff0c;即右下点的x坐标&＃xff1b;8个点投影出的y的最大值应该等于2D框的最大的y&＃xff0c;即右下点的y坐标。故&＃xff0c;共有4个方程&＃xff0c;求解用最小二乘即可。

二、一些思考

复现出来的指标与论文的差不多。在评价3d框时&＃xff0c;用了平均3D iou&＃xff0c;我的结果大概是0.3。但是私以为平均3d iou还是不太能说明情况的&＃xff0c;看了一下3d iou的AP&＃xff0c;相当低&＃xff0c;只有个位数。。存在某些框严重偏离真实目标的三维位置。

我认为这里有两个原因&＃xff0c;首先&＃xff0c;是一些目标如汽车&＃xff0c;当它有一部分出现在图像内一部分出现在图像外时&＃xff0c;3D框是不准的&＃xff0c;因为在求解三维位置时&＃xff0c;假设了2D框的中心是3D框中心的投影。其次&＃xff0c;与2D目标检测器的位置回归精度也有关系。

三、代码

这里就不放全部代码了&＃xff0c;因为实在写得比较乱懒得整理。2D检测部分我用的是pytorch版本的SSD来修改的&＃xff0c;链接如下。

https://github.com/amdegroot/ssd.pytorchgithub.com

求解三维位置坐标的代码貌似网上木有或者有但我还木有发现...所以放一下我自己的供参考参考。

LZJ-Roger/Deep3Dbox-solve_T-part-github.com

The End.

假期宅家码字甚是无聊快给个赞与收藏让我高兴高兴 [手动比心]~

推荐阅读

ip
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
ip
S3D算法详解

S3D论文详解论文地址：RethinkingSpatiotemporalFeatureLearning:Speed-AccuracyTrade-offsinVide ... [详细]

蜡笔小新 2023-10-16 17:45:39
ip
【OCR学习笔记】What Is Wrong With Scene Text Recognition Model Comparisons Dataset and Model Analysis

文章目录摘要细节开源代码摘要提出了一个统一的四阶段STR框架。Transformation：TPS，归一化字符区域到预定义的矩形，校正图像。Featureextraction ... [详细]

蜡笔小新 2023-10-15 18:16:55
ip
YOLOV4 Pytorch版本训练自建数据集和预测

1.程序下载本文程序核心部分完全参考开源代码：https:github.comWongKinYiuPyTorch_YOLOv4。只是从一种学习的角度去写了我的代码仓库，在基础上增加 ... [详细]

蜡笔小新 2023-10-14 15:32:06
heap
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
heap
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
heap
2020年AI产业报告：100个岗位抢1个人，计算机视觉成最大缺口

“你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间，这是我们最战战兢兢的心情。但是显然，有些人体会不了。这份行业数据，让笔者“柠檬” ... [详细]

蜡笔小新 2023-12-14 12:23:22
eval
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
ip
mmcls多标签分类实战（二）：resnet多标签分类

上一章讲了如何制作数据集，接下来我们使用mmcls来实现多标签分类。 ... [详细]

蜡笔小新 2023-10-17 07:43:01
web
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07
web
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
instance
PyTorch源码解读之torchvision.models

PyTorch框架中有一个非常重要且好用的包：torchvision，该包主要由3个子包组成，分别是：torchvision.datasets、torchvision.models、torchv ... [详细]

蜡笔小新 2023-10-16 11:14:55
instance
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
ip
微信回应「10 元就能在朋友圈改定位」；谷歌官方首次提及 Android 11；Node 8.16.2 发布 | 极客头条...

微信回应「10元就能在朋友圈改定位」；谷歌官方首次提及Android11；Node8.16.2发布|极客头条,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-15 15:22:56
express
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15

飘飘秀秀真人_562

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章