当前位置: 开发笔记 > 编程语言 > 正文

最新清华大学arXiv上传的深度学习摄像头运动估计论文

作者：frank52_445 | 来源：互联网 | 2023-08-12 13:21

点击上方“3D视觉工坊”，选择“星标”干货第一时间送达作者：黄浴https:zhuanlan.zhihu.comp138926038本文仅做学术分享，如有侵权，请联系删除。2020

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者：黄浴

https://zhuanlan.zhihu.com/p/138926038

本文仅做学术分享，如有侵权，请联系删除。

2020年4月3日清华大学在arXiv上传论文“Towards Better Generalization: Joint Depth-Pose Learning without PoseNet”。

最新清华大学arXiv上传的深度学习摄像头运动估计论文

摘要：这项工作是解决本质上自监督联合深度图-姿势学习的尺度不一致问题。目前大多数方法都假定可以采用所有输入样本学习一致的深度和姿势尺度，这使学习问题变得更加困难，从而导致室内环境和长序列视觉里程计应用的性能下降和有限的通用性。为了解决这个问题，文中提出了一种新系统从网络估计中明确地解藕尺度。该方法不依赖PoseNet架构，直接从致密光流对应关系中求解基本矩阵 (fundamental matrix) 来恢复相对姿态，并利用立体视觉三角化原理来恢复可扩展的3D结构。然后，将深度预测的尺度与三角化的点云对齐，并将转换的深度图做深度误差计算和致密重投影检查。该整个系统可以接受端到端的联合训练。作者用大量的实验表明，该系统在KITTI的深度和光流估计达到了最好的性能，而且还显着提高现有自监督深度图-姿势学习方法在各种挑战性场景的泛化能力，而且实现了KITTI的里程计和NYUv2数据集基于自监督学习方法的最好结果。此外，就泛化能力而言，基于PoseNet的相对姿势估计方法的局限性本文提出了一些有趣的发现。https://github.com/B1ueber2y/TrianFlow可以下载代码。

文章首先给出结果比较：

最新清华大学arXiv上传的深度学习摄像头运动估计论文

然后介绍其算法框架：

最新清华大学arXiv上传的深度学习摄像头运动估计论文

现有自监督深度图-姿势学习方法的中心思想是，通过对图像对进行几何约束，估计单目深度和相对姿势时分别学习两个独立网络。具体而言，用预测的相对相机姿态，把预测深度重投影到另一个图像平面上，然后测量光度误差。但此类方法假定所有图像的深度图和姿势的尺度都是一致的。如图所示，本文的方法是这样的：DepthNet获取每个输入图像并分别预测单目深度。FlowNet以图像对输入预测光流；依次执行采样像素对应、基本矩阵求解和顺性（cheirality）条件检查等恢复相对姿态；精确像素匹配的重采样用于三角化测量；根据稀疏的三角化深度估计对齐深度预测，分别计算损失函数去联合监督DepthNet和FlowNet的训练。

训练的损失函数：

最新清华大学arXiv上传的深度学习摄像头运动估计论文

其中Lf是光流项（基于光度误差），Ld是深度图项（预测误差），Lp是图像对重投影项（下面介绍其两个部分），而Ls是深度平滑项（类似以前的方法），那么深度图项定义为

最新清华大学arXiv上传的深度学习摄像头运动估计论文

这里采用了ICCV'19提出的dual pixel方法。而重投影项定义为

最新清华大学arXiv上传的深度学习摄像头运动估计论文

其中两项分别是光流和深度带来的项：需要摄像头内参K

最新清华大学arXiv上传的深度学习摄像头运动估计论文

下面的结果：

先是室外环境

深度估计

最新清华大学arXiv上传的深度学习摄像头运动估计论文

光流估计

最新清华大学arXiv上传的深度学习摄像头运动估计论文

里程计估计

最新清华大学arXiv上传的深度学习摄像头运动估计论文

特意提出对未见过的运动估计

(stride=3).

最新清华大学arXiv上传的深度学习摄像头运动估计论文

（文中刚开始的结果就是这个情况）

然后室内环境

深度估计

最新清华大学arXiv上传的深度学习摄像头运动估计论文

里程计

最新清华大学arXiv上传的深度学习摄像头运动估计论文

作者认为其方法的泛化来自于以下设计：1）光流进行相机自运动预测，2）深度与3-D三角化结构之间的显式尺度对齐。与深度学习模型的相对姿势估计相比，光流不会受尺度模糊性的影响。当然，他们也知道当前的系统无法处理运动过大的场景，也不能用立体三角测量在线处理纯旋转运动。

感觉该文方法的结构，和下面这篇参考文献最接近：文中里面也提到了，作者觉得自己的创新主要是自监督学习。

最新清华大学arXiv上传的深度学习摄像头运动估计论文

【64】H Zhan, C S Weerasekera, J Bian, and I Reid. “Visual odometry revisited: What should be learnt?” arXiv preprint arXiv:1909.09803, 2019

推荐阅读：

专辑|相机标定

专辑|3D点云

专辑|SLAM

专辑|深度学习与自动驾驶

专辑|结构光

专辑|事件相机

专辑|OpenCV学习

专辑|学习资源汇总

专辑|招聘与项目对接

专辑|读书笔记

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近1000+星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

推荐阅读

go
如何配置VisualSVN以确保提交时必须填写日志信息

在软件开发团队中，成员们有时会忘记在提交代码时添加必要的备注信息。为了规范这一流程，可以通过配置VisualSVN来强制要求团队成员在提交文件时填写日志信息。本文将详细介绍如何设置这一功能。 ... [详细]

蜡笔小新 2024-11-14 19:50:04
go
WCF类型共享的最佳实践

在使用WCF服务时，经常会遇到同一个实体类型在不同服务中被生成为不同版本的问题。本文将介绍几种有效的类型共享方法，以解决这一常见问题。 ... [详细]

蜡笔小新 2024-11-14 17:56:14
java
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
java
Cacti 数据库错误：SQL 查询失败，错误代码 145

在使用 Cacti 进行监控时，发现已运行的转码机未产生流量，导致 Cacti 监控界面显示该转码机处于宕机状态。进一步检查 Cacti 日志，发现数据库中存在 SQL 查询失败的问题，错误代码为 145。此问题可能是由于数据库表损坏或索引失效所致，建议对相关表进行修复操作以恢复监控功能。 ... [详细]

蜡笔小新 2024-11-11 12:57:49
list
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
uri
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
list
macOS 上 Visual Studio Code 的安装与配置指南

Visual Studio Code (VSCode) 是一款功能强大的源代码编辑器，支持多种编程语言，具备丰富的扩展生态。本文将详细介绍如何在 macOS 上安装、配置并使用 VSCode。 ... [详细]

蜡笔小新 2024-11-12 19:45:55
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
include
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
include
装饰者模式（Decorator）：一种灵活的对象结构设计模式

装饰者模式（Decorator）是一种灵活的对象结构设计模式，旨在为单个对象动态地添加功能，而无需修改原有类的结构。通过封装对象并提供额外的行为，装饰者模式比传统的继承方式更加灵活和可扩展。例如，可以在运行时为特定对象添加边框或滚动条等特性，而不会影响其他对象。这种模式特别适用于需要在不同情况下动态组合功能的场景。 ... [详细]

蜡笔小新 2024-11-11 16:36:53
list
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
rsa
C#中数值结果的格式化展示方法与技巧

在C#编程中，数值结果的格式化展示是提高代码可读性和用户体验的重要手段。本文探讨了多种格式化方法和技巧，如使用格式说明符、自定义格式字符串等，以实现对数值结果的精确控制。通过实例演示，展示了如何灵活运用这些技术来满足不同的展示需求。 ... [详细]

蜡笔小新 2024-11-11 09:27:57
rsa
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
go
如何在C#中配置组合框的背景颜色？

如何在C#中配置组合框的背景颜色？ ... [详细]

蜡笔小新 2024-11-08 13:06:59
go
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03

frank52_445

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

最新清华大学arXiv上传的深度学习摄像头运动估计论文

推荐阅读： 专辑|相机标定 专辑|3D点云 专辑|SLAM 专辑|深度学习与自动驾驶 专辑|结构光 专辑|事件相机 专辑|OpenCV学习 专辑|学习资源汇总 专辑|招聘与项目对接 专辑|读书笔记

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

推荐阅读：

专辑|相机标定

专辑|3D点云

专辑|SLAM

专辑|深度学习与自动驾驶

专辑|结构光

专辑|事件相机

专辑|OpenCV学习

专辑|学习资源汇总

专辑|招聘与项目对接

专辑|读书笔记

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题