热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

最新清华大学arXiv上传的深度学习摄像头运动估计论文

点击上方“3D视觉工坊”,选择“星标”干货第一时间送达作者:黄浴https:zhuanlan.zhihu.comp138926038本文仅做学术分享,如有侵权,请联系删除。2020

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

最新清华大学arXiv上传的深度学习摄像头运动估计论文

作者:黄浴

https://zhuanlan.zhihu.com/p/138926038

本文仅做学术分享,如有侵权,请联系删除。

2020年4月3日清华大学在arXiv上传论文“Towards Better Generalization: Joint Depth-Pose Learning without PoseNet”。

最新清华大学arXiv上传的深度学习摄像头运动估计论文

摘要:这项工作是解决本质上自监督联合深度图-姿势学习的尺度不一致问题。目前大多数方法都假定可以采用所有输入样本学习一致的深度和姿势尺度,这使学习问题变得更加困难,从而导致室内环境和长序列视觉里程计应用的性能下降和有限的通用性。为了解决这个问题,文中提出了一种新系统从网络估计中明确地解藕尺度。该方法不依赖PoseNet架构,直接从致密光流对应关系中求解基本矩阵 (fundamental matrix) 来恢复相对姿态,并利用立体视觉三角化原理来恢复可扩展的3D结构。然后,将深度预测的尺度与三角化的点云对齐,并将转换的深度图做深度误差计算和致密重投影检查。该整个系统可以接受端到端的联合训练。作者用大量的实验表明,该系统在KITTI的深度和光流估计达到了最好的性能,而且还显着提高现有自监督深度图-姿势学习方法在各种挑战性场景的泛化能力,而且实现了KITTI的里程计和NYUv2数据集基于自监督学习方法的最好结果。此外,就泛化能力而言,基于PoseNet的相对姿势估计方法的局限性本文提出了一些有趣的发现。https://github.com/B1ueber2y/TrianFlow可以下载代码。


文章首先给出结果比较:

最新清华大学arXiv上传的深度学习摄像头运动估计论文

然后介绍其算法框架:

最新清华大学arXiv上传的深度学习摄像头运动估计论文

现有自监督深度图-姿势学习方法的中心思想是,通过对图像对进行几何约束,估计单目深度和相对姿势时分别学习两个独立网络。具体而言,用预测的相对相机姿态,把预测深度重投影到另一个图像平面上,然后测量光度误差。但此类方法假定所有图像的深度图和姿势的尺度都是一致的。如图所示,本文的方法是这样的:DepthNet获取每个输入图像并分别预测单目深度。FlowNet以图像对输入预测光流;依次执行采样像素对应、基本矩阵求解和顺性(cheirality)条件检查等恢复相对姿态;精确像素匹配的重采样用于三角化测量;根据稀疏的三角化深度估计对齐深度预测,分别计算损失函数去联合监督DepthNet和FlowNet的训练。

训练的损失函数:

最新清华大学arXiv上传的深度学习摄像头运动估计论文

其中Lf是光流项(基于光度误差),Ld是深度图项(预测误差),Lp是图像对重投影项(下面介绍其两个部分),而Ls是深度平滑项(类似以前的方法),那么深度图项定义为

最新清华大学arXiv上传的深度学习摄像头运动估计论文

这里采用了ICCV'19提出的dual pixel方法。而重投影项定义为

最新清华大学arXiv上传的深度学习摄像头运动估计论文

其中两项分别是光流和深度带来的项:需要摄像头内参K

最新清华大学arXiv上传的深度学习摄像头运动估计论文

最新清华大学arXiv上传的深度学习摄像头运动估计论文


下面的结果:

先是室外环境

深度估计

最新清华大学arXiv上传的深度学习摄像头运动估计论文

光流估计

最新清华大学arXiv上传的深度学习摄像头运动估计论文

里程计估计

最新清华大学arXiv上传的深度学习摄像头运动估计论文

最新清华大学arXiv上传的深度学习摄像头运动估计论文

特意提出对未见过的运动估计

(stride=3).

最新清华大学arXiv上传的深度学习摄像头运动估计论文

(文中刚开始的结果就是这个情况)

然后室内环境

深度估计

最新清华大学arXiv上传的深度学习摄像头运动估计论文

里程计

最新清华大学arXiv上传的深度学习摄像头运动估计论文

作者认为其方法的泛化来自于以下设计:1)光流进行相机自运动预测,2)深度与3-D三角化结构之间的显式尺度对齐。与深度学习模型的相对姿势估计相比,光流不会受尺度模糊性的影响。当然,他们也知道当前的系统无法处理运动过大的场景,也不能用立体三角测量在线处理纯旋转运动。

感觉该文方法的结构,和下面这篇参考文献最接近:文中里面也提到了,作者觉得自己的创新主要是自监督学习。

最新清华大学arXiv上传的深度学习摄像头运动估计论文

最新清华大学arXiv上传的深度学习摄像头运动估计论文

【64】H Zhan, C S Weerasekera, J Bian, and I Reid. “Visual odometry revisited: What should be learnt?” arXiv preprint arXiv:1909.09803, 2019

推荐阅读

  • 专辑|相机标定

  • 专辑|3D点云

  • 专辑|SLAM

  • 专辑|深度学习与自动驾驶

  • 专辑|结构光

  • 专辑|事件相机

  • 专辑|OpenCV学习

  • 专辑|学习资源汇总

  • 专辑|招聘与项目对接

  • 专辑|读书笔记

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

最新清华大学arXiv上传的深度学习摄像头运动估计论文

▲长按加微信群或投稿

最新清华大学arXiv上传的深度学习摄像头运动估计论文

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

最新清华大学arXiv上传的深度学习摄像头运动估计论文

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • Android实战——jsoup实现网络爬虫,糗事百科项目的起步
    本文介绍了Android实战中使用jsoup实现网络爬虫的方法,以糗事百科项目为例。对于初学者来说,数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据,并以糗事百科作为练手项目。同时,提到了使用jsoup需要结合前端基础知识,以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]
  • 本文整理了315道Python基础题目及答案,帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者,这些题目将是一个不错的选择。请注意,答案在视频中,本文不提供答案。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • 如何用UE4制作2D游戏文档——计算篇
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • Go语言实现堆排序的详细教程
    本文主要介绍了Go语言实现堆排序的详细教程,包括大根堆的定义和完全二叉树的概念。通过图解和算法描述,详细介绍了堆排序的实现过程。堆排序是一种效率很高的排序算法,时间复杂度为O(nlgn)。阅读本文大约需要15分钟。 ... [详细]
  • 【shell】网络处理:判断IP是否在网段、两个ip是否同网段、IP地址范围、网段包含关系
    本文介绍了使用shell脚本判断IP是否在同一网段、判断IP地址是否在某个范围内、计算IP地址范围、判断网段之间的包含关系的方法和原理。通过对IP和掩码进行与计算,可以判断两个IP是否在同一网段。同时,还提供了一段用于验证IP地址的正则表达式和判断特殊IP地址的方法。 ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
  • AI行业的下一个风口是医疗?创业者们这样说
    ▼点击上方蓝字关注网易智能为你解读AI领域大公司大事件,新观点新应用编者按:4月10日,鲸准AI产业价值峰会在北京举行。本次大会除了邀请A ... [详细]
  • 初探PLC 的ST 语言转换成C++ 的方法
    自动控制软件绕不开ST(StructureText)语言。它是IEC61131-3标准中唯一的一个高级语言。目前,大多数PLC产品支持ST ... [详细]
author-avatar
frank52_445
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有