热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

CSWS_E_ROB深度估计方法

论文链接:https:arxiv.orgpdf1708.02287.pdf正文翻译概述……首先,我们把深度估计看做一种多类别的密集标记任务,然后与基于公式的

 

论文链接:https://arxiv.org/pdf/1708.02287.pdf

正文翻译 

概述

        ……首先,我们把深度估计看做一种多类别的密集标记任务,然后与基于公式的回归问题类比。这样,我们可以依赖于像语义分割上的密集标记的最新进展。其次,我们将前端扩展卷积神经网络的不同侧向输出以分层方式融合,以利用多尺度深度线索进行深度估计,这对于实现尺度感知深度估计是至关重要的。第三,提出利用软加权和推理代替硬最大推理,将离散的深度分数转换为连续的深度值。因此,我们减少了量化误差的影响,并提高了我们的方法的鲁棒性。……

1.介绍

        ……传统的方法主要是利用多幅图像进行深度预测,包括Nview重建、SfM结构和SLAM[]。

        然而,从单目单视点的深度估计远远落后于它的多视点对应。这主要是由于问题本身是病态的并且本质上是模糊的:单个图像本身并不明确地提供任何深度提示(即,给定场景的彩色图像,存在无穷多个3D场景结构来精确地解释2D测量)。当特定的场景相关知识可用时,可以通过利用诸如“块世界”模型〔5〕、“折纸世界”模型〔6〕从阴影(7)形状和结构重复〔8〕的几何假设来实现单个图像的深度估计或三维重建。然而,这些线索通常用于具有特定结构的图像,并且可能不适用于一般场景。

        近年来,基于学习的单目深度动画方法,通过从数据中学习直接预测场景几何,得到了广泛的应用。通常,这些方法通过利用单目图像和深度之间的关系来重铸像素级场景标记流水线中的底层深度估计问题。完全卷积神经网络已被证明是解决这类问题的有效方法。深层卷积神经网络(CNN)在解决这一问题上取得了长足的进展,并取得了优异的性能[7、8、9、10、11、12、13、14]。

        尽管取得了上述成功,但是由于以下困难,现有技术的单目深度估计方法仍然不足以处理现实世界中具有挑战性的描述不同尺度的多个对象的复杂分解:  

1)由于透视效应造成的严重的数据不平衡问题,其中小深度的样本远大于大深度的样本;

2)与其他稠密预测任务(如语义标注)相比,深度值的变化更为迅速;

3)需要深度上下文信息来处理深度估计中的尺度模糊。尽管已经存在各种后处理方法来从深度网络图[7、8、9、10、11、12、13、14]中提取估计的深度,但是改进单目深度估计的瓶颈仍然是特别设计的CNN体系结构,这是非常期望的。

        本文提出了一个基于CNN的深度映射框架,用于解决上述问题,它以端到端的方式学习从彩色图像到相应深度图的直接映射。我们改写单目深度估计作为一个多类别密集标签作为对比广泛使用的回归公式。我们的网络基于深度残差网络[15],其中扩展卷积和分层融合层被设计成扩展接收场并融合多尺度深度线索。为了减少量化误差的影响,提高我们的方法的鲁棒性,我们建议使用软加权和推理。大量的实验结果表明,即使我们把网络训练成具有多项逻辑损失的标准分类任务,我们的网络也能够学习不同类别之间的概率分布。我们的框架的总体流程图如图1所示。

        我们的主要贡献可以被总结如下:

1)通过将单目深度估计重铸为分类任务,我们提出了单目深度估计的深度端到端学习框架,其中扩展卷积分层特征融合被用于学习感知尺度的深度线索。

2)我们的网络能够输出不同深度标签之间的概率分布。提出了一种软加权和推理方法,可以减少量化误差的影响,提高鲁棒性。

3)我们的方法实现了最先进的性能在室内和室外基准数据集,NYU V2和KITTI数据集

 

图片1

相关工作

深度学习方法与MRF、CRF方法:

MRF/CRF:Saxena等人的开创性工作。[16,17]利用多尺度马尔可夫随机场(MRF)模型,通过监督学习来学习模型的参数。Liu等人。[18]从预测的语义标签估计深度图,用更简单的MRF模型实现改进的性能。拉迪基等人[19]表明透视几何可以用来改善结果,并演示了场景标记和深度估计在统一框架下如何互惠互利,其中提出了像素级分类器来联合预测来自单个图像的语义类和深度标签。除了这些参数化方法之外,其他工作,如[20,21,22]以非参数方式重铸单目深度估计,其中从候选深度图推断出整个深度图。刘等人〔21〕提出了一种离散的连续CRFS,其目的是避免过度平滑和保持遮挡边界。阿尼班等。[]提出了一个神经回归森林模型来解决这个问题。这些工作为单幅图像深度估计问题提供了重要的见解和线索,而大多数工作利用手工制作的特征,从而限制了它们的性能,特别是对于复杂场景.

深度学习方法:

近年来,由于深度卷积神经网络(CNNs),单目深度估计得到了很大的发展。艾根等人。〔23〕通过训练一个大型的深度美国有线电视新闻网,提出了一个框架。然而,部分由于网络模型中使用的完全连接层,它们的网络必须用非常大的数据进行训练。相比之下,李等人。[7]提出了基于补丁的CNN框架和层次CRF模型对原始估计深度图进行后处理,显著减少了训练图像的数量。刘等人。〔8〕提出了一种CRF—CNN训练架构,可以共同学习CRF和CNN的参数。王等。〔9〕提出了一种联合语义标注和单眼深度预测的CNN体系结构。陈等人。〔24〕提出了利用相对深度标注来估计度量深度的算法。

最近,Laina等人。〔12〕提出利用Huber损失代替L2损失来处理深度分布的长尾效应。曹等。_11_表明,将深度估计公式化作为分类任务,可以获得比具有L2损失的回归更好的结果,但未能给出足够的成功分析。此外,与我们的方法不同,他们在测试阶段使用硬MAX推断。许等。[13]提出一种多尺度连续CRF,用于更好地提取层次信息,提高最终结果的平滑度。我们的分层信息融合策略比(13)简单得多,同时我们也取得了类似的结果。

无监督单目深度学习方法:

除了上述使用地面真值深度图来监督网络学习的方法之外,还有另一组方法,利用立体图像和图像序列的可用性,使用新颖的视图合成来监督网络学习[25][14][26][27]——无监督深度估计。Garg等人[25]提出使用图像重建损耗训练用于单目深度估计的网络,其中执行泰勒近似以线性化损耗。Godard等人[14]将训练期间显式深度数据的使用替换为更容易获得的双目立体画面,这加强了相对于左图像和右图像产生的视差之间的一致性,从而与现有批准相比提高了性能和鲁棒性。沿着这条流水线,周等人(26)提出了一种无监督的学习框架,用于基于图像扭曲的非结构化视频序列的单目深度和摄像机运动估计,以评估图像误差。Kuznietsov等人[27]以半监督方式学习深度,其中联合使用稀疏地面真值深度和光敏性。Ummenhofer等人[28]训练了卷积网络端到端以从连续的、无约束的图像对计算深度和相机运动,其中体系结构由多个堆叠的编码器-解码器网络组成。

这些“无监督”方法的关键监控信号来自新视图合成的任务:给定场景的一个输入视图,合成从不同相机姿态看到的场景的新图像。本质上,对整流立体图像或连续图像帧已经隐式地编码深度信息。

我们的工作还涉及到基于FCN(完全卷积网络)密集标签的工作。朗等。[29]提出了用于语义分割的全卷积神经网络,它被广泛应用于其他密集标记问题。哈里哈兰等。〔30〕提出低层美国有线电视新闻网特征优于边界保持和目标定位。最近,余等人。[31]证明了扩张卷积在保持特征图分辨率的同时,能够扩大相应神经元的接收域。陈(32)成功地将扩展卷积应用于语义问题,并展示了如何在预先训练的CNN上建立它们

我们的框架

针对当前状态估计方法面临的现实挑战,我们提出了单目深度估计的深度端到端学习框架,该框架学习从彩色图像到相应深度图的直接映射。我们的单目深度估计框架包括两个阶段:具有分类损失的模型训练和具有软加权和的推理。首先,通过将单目深度估计重铸为多类标记,我们设计了一个分层融合扩展CNN,以直接学习RGB图像到相应深度得分图的映射。我们的网络体系结构分层地融合了多尺度深度特征,这对于实现基于尺度的单目深度估计具有重要意义。其次,我们提出一个软加权和推理作为与硬最大推理的对比,它把离散的深度分数转换为连续的深度值。这样可以减少量化误差的影响,提高鲁棒性。

 3.1网络体系结构

我们的CNN架构如图2所示,其中权重是从预先训练的152层深度剩余CNN(ResNet)[15]初始化的。与现有的深层网络[33]不同,ResNet[15]明确地学习了关于层输入的残差函数,这使得从显著增加的网络深度以更高的精度进行优化更容易。RESNET(15)最初是为图像分类而设计的。在这项工作中,我们的目的是使其适合于我们的深度估计任务

1)移除所有全连接层。以这种方式,我们大大减少了模型参数的数量,因为大多数参数都在全连接层[10 ]中。虽然保留完全连接层有利于提取远程上下文信息,但我们的实验表明,由于扩展卷积,在我们的网络中没有必要这样做。

2)利用扩张卷积的优点。扩展卷积可在不增加模型参数数目的情况下扩展神经元的感受野。此外,通过扩展卷积,我们可以在不减小相应神经元感受野大小的情况下去除一些汇聚层。此外,我们可以保持特征图和最终结果的分辨率,即,输出分辨率提高了。

3)Hierarchal融合。我们直接将中间特征映射与最终特征映射连接起来。这种跳跃连接设计有利于多尺度特征融合和边界保持。

扩张卷积:近年来,扩展卷积[31]在深层卷积神经网络中得到了成功的应用,在不增加模型参数的情况下,扩展了感知领域。

让F:Z^2 -> r 离散函数。让Ω(r) = [r,r]^2 ∩ Z^2 并且让k:Ω(r) -> R 是一个大小为(2r + 1)^2的离散滤波器。离散卷积层 * 可以被表示为(F*k)(p) = Σs+t=p F(s)k(t)

我们现在推广这个算式,l为一个扩张因子,让×l定义这个算式:(F*lk)(p) = Σs+lt=p F(s)k(t)

我们把*l看做一个扩张卷积或者一个l 扩张卷积。传统的离散卷积是一个简单的1扩张卷积。一个简单的示例如下:

分层融合:由于CNN具有层次结构,这意味着高级神经元具有更大的感受野和更抽象的特征,而低级神经元具有更小的感受野和更详细的信息。因此,组合用于像素级预测任务的多尺度信息已经得到相当大的兴趣。

我们建议级联高级特征映射和中间特征映射。跳过连接结构既有利于多尺度融合,又有利于边界保持。在我们的网络中,L1、L2、L3、L4层大小相同,我们直接连接它们。

总之,我们简要总结了我们的最终网络设计。典型地,预训练残差网络由4部分组成。最后2部分去掉了最大池化层,分别用扩张2和扩张4扩展了相应的卷积核。然后,添加级联层来融合来自层L1~L4的分层多尺度信息。我们的网络的最后两层是卷积层和反卷积层。参数设置在图2中给出。

3.2 软加权推论

通过对测井空间中的深度值进行等值离散,将深度估计重新表示为分类任务。像:

l = round((log(d) − log(dmin))/q)

这里l是一个量化标签,d是连续的深度值,dmin实在数据集中最小的深度值,或者设置为一个小的值像0.1,q是量化仓的宽度。

利用量化标签,利用多项式逻辑损耗对网络进行训练。

这里N是训练样本的数量,是label k是样例i的可能性,并且k是地面真实数据。

在测试阶段,我们提出使用软加权和推理。值得注意的是,该方法以一种自然的方式将预测得分转换为连续深度值。明确地:

这里W是深度仓的权重变量,p是输出分数。在我们的试验中,我们把深度仓的数量设置到200.

3.3 数据扩充

虽然训练数据集是由数万张图像组成的,但是我们仍然发现数据增强对于提高最终性能非常重要。在本工作中,我们对NYU v2和KITTI数据集都进行了4次扩充。我们使用的增强方法包括:

颜色:颜色通道都被随机的乘以一个因子 c∈[0.9, 1.1]

规模:我们将输入图像按s∈[1.3,1.5]的因子进行随机缩放,并裁剪图像的中心块以匹配网络输入大小。

左右翻转:我们水平地翻转左右图像

旋转:我们将输入图像随机旋转,r∈[ -5, 5 ]。

 3.4 实现细节

在进行实验结果之前,我们给出了该方法的实现细节。我们的实现基于高效的CNN工具箱:带有NVIDIA Tesla Titian X GPU的caffe[34]。

该网络采用批量大小为1的随机梯度下降法训练(此规模太小,因此我们平均一次反向传播8次迭代的梯度)、动量0.9和重量衰减0.0004。权重由ResNet[15]中的预训练模型初始化。在最初的30k次迭代中,通过固定学习速率0.001以50k的迭代训练网络,然后每10k次迭代除以10。

实验结果

在本节中,我们报告了针对室外和室内场景的单目深度估计的实验结果。我们使用了NYU V2数据集和KITTI数据集,因为它们是我们目前能够访问的最大的开放数据集。我们比较了我们的方法和最近发表的最新方法。

为了更好地评估,我们沿用了一下的评价指标:

4.1 NYU V2数据集

NYU V2数据集[4]包含大约240kRGB深度的图像对,其中来自464个场景,用Microsoft Kinect捕获。官方划分包括249个训练和215个测试场景。我们同样地从每个训练序列中采样帧,得到大约24k个唯一的图像。在离线增强之后,我们的数据集包括大约96k个RGBD图像对。我们使用“着色”方法填充原始深度图的无效像素,该方法提供在NYU V2数据集的工具箱中[4]。

原始图像分辨率为480×640。我们将图像下采样到240×320作为网络输入。我们的网络输出的分辨率是120×160,是输入大小的一半。在这个数据集中,我们将深度值量化为200个bins。

4.2 KITTI数据集

……


推荐阅读
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • 图像分割技术在人工智能领域中扮演着关键角色,其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析,探讨了它们在不同应用场景中的优缺点和适用范围,为研究人员和从业者提供了有价值的参考。 ... [详细]
  • 深度森林算法解析:特征选择与确定能力分析
    本文深入探讨了深度森林算法在特征选择与确定方面的能力。提出了一种名为EncoderForest(简称eForest)的创新方法,作为首个基于决策树的编码器模型,它在处理高维数据时展现出卓越的性能,为特征选择提供了新的视角和工具。 ... [详细]
  • ABP框架是ASP.NET Boilerplate的简称,它不仅是一个开源且文档丰富的应用程序框架,还提供了一套基于领域驱动设计(DDD)的最佳实践架构模型。本文将详细介绍ABP框架的特点、项目结构及其在Web API优先架构中的应用。 ... [详细]
  • 浏览器作为我们日常不可或缺的软件工具,其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程,帮助读者更好地理解这一关键技术组件,揭示其内部运作的奥秘。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 在拉斯维加斯举行的Interop 2011大会上,Bitcurrent的Alistair Croll发表了一场主题为“如何以云计算的视角进行思考”的演讲。该演讲深入探讨了传统IT思维与云计算思维之间的差异,并提出了在云计算环境下应具备的新思维方式。Croll强调了灵活性、可扩展性和成本效益等关键要素,以及如何通过这些要素来优化企业IT架构和运营。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 深入解析经典卷积神经网络及其实现代码
    深入解析经典卷积神经网络及其实现代码 ... [详细]
  • 视觉图像的生成机制与英文术语解析
    近期,Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机(MLP)在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制,并解析了相关技术术语,为理解视觉图像生成提供了新的视角和方法。 ... [详细]
  • 题目《BZOJ2654: Tree》的时间限制为30秒,内存限制为512MB。该问题通过结合二分查找和Kruskal算法,提供了一种高效的优化解决方案。具体而言,利用二分查找缩小解的范围,再通过Kruskal算法构建最小生成树,从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率,还确保了在大规模数据集上的稳定性能。 ... [详细]
  • B站服务器故障影响豆瓣评分?别担心,阿里巴巴架构师分享预防策略与技术方案
    13日晚上,在视频观看高峰时段,B站出现了服务器故障,引发网友在各大平台上的广泛吐槽。这一事件导致了连锁反应,大量用户纷纷涌入A站、豆瓣和晋江等平台,给这些网站带来了突如其来的流量压力。为了防止类似问题的发生,阿里巴巴架构师分享了一系列预防策略和技术方案,包括负载均衡、弹性伸缩和容灾备份等措施,以确保系统的稳定性和可靠性。 ... [详细]
  • 七款高效编辑器与笔记工具推荐:KindEditor自动换行功能解析
    本文推荐了七款高效的编辑器与笔记工具,并详细解析了KindEditor的自动换行功能。其中,轻笔记QingBiJi是一款完全免费的记事本软件,用户可以通过其简洁的界面和强大的功能轻松记录和管理日常事务。此外,该软件还支持多平台同步,确保用户在不同设备间无缝切换。 ... [详细]
  • 不用蘑菇,不拾金币,我通过强化学习成功通关29关马里奥,创造全新纪录
    《超级马里奥兄弟》由任天堂于1985年首次发布,是一款经典的横版过关游戏,至今已在多个平台上售出超过5亿套。该游戏不仅勾起了许多玩家的童年回忆,也成为强化学习领域的热门研究对象。近日,通过先进的强化学习技术,研究人员成功让AI通关了29关,创造了新的纪录。这一成就不仅展示了强化学习在游戏领域的潜力,也为未来的人工智能应用提供了宝贵的经验。 ... [详细]
author-avatar
手机用户2502905891
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有