热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【论文翻译】SemanticGraphConvolutionalNetworksfor3DHumanPoseRegression

【iccv论文】https:openaccess.thecvf.comcontent_CVPR_2019papersZhao_Semantic_Graph_Convolutiona



【iccv论文】https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhao_Semantic_Graph_Convolutional_Networks_for_3D_Human_Pose_Regression_CVPR_2019_paper.pdf
【github】https://github.com/garyzhao/SemGCN




摘要

        在本文中,我们研究了用于回归的图卷积网络(GCNs)学习问题。目前的GCNs架构局限于每个节点的卷积滤波器和共享变换矩阵的小接受域。为了解决这些限制,我们提出了语义图卷积网络(SemGCN),这是一种新型的神经网络架构,可以在使用图结构数据的回归任务上运行。SemGCN学习捕获语义信息,如局部和全局节点关系,这些信息在图中没有显式表示。这些语义关系可以通过端到端训练来学习,而不需要额外的监督或手工制定的规则。我们进一步研究了将SemGCN应用于三维人体姿态回归。我们的公式是直观和充分的,因为2D和3D人体姿势都可以表示为编码人体骨骼中关节之间关系的结构化图。我们进行了全面的研究来验证我们的方法。结果证明,SemGCN在使用少90%参数的情况下性能优于目前的技术水平。



1. 介绍

        卷积神经网络(cnn)已经成功解决了经典的计算机视觉问题,如图像分类[12,29,31,52],目标检测[19,46,55,63,74,79]和生成[43,58,71,73,80],其中输入图像具有网格状结构。然而,许多现实世界的任务,如分子结构、社会网络和3D网格,只能以不规则结构的形式表示,cnn的应用范围有限。

        为了解决这一限制,图卷积网络(GCNs)[17,28,49]最近被引入,作为cnn的泛化,它可以直接处理一类一般的图。当应用于3D网格变形[45,64]、图像字幕[70]、场景理解[68]和视频识别[66,67]时,它们已经达到了最先进的性能。这些工作利用GCNs建模视觉对象的关系进行分类。在本文中,我们研究了使用深度GCNs进行回归,这是计算机视觉的另一个核心问题,具有许多实际应用。

        然而,由于基线方法的以下局限性,GCNs不能直接应用于回归问题[28,64,67]。首先,为了解决图节点可能有不同数量的邻域的问题,卷积滤波器对所有节点共享相同的权值矩阵,这与cnn不具有可比性。其次,通过将过滤器限制在每个节点周围的一步邻域内,根据[28]的指导,简化了前面的方法。由于这种形式,卷积核的接受域被限制为1,这严重影响了信息交换的效率,特别是当网络变深时。

        在这项工作中,我们提出了一种新的用于回归的图神经网络架构,称为语义图卷积网络(SemGCN),以解决上述限制。具体来说,我们研究了在给定图中编码的学习语义信息,即节点的局部和全局关系,这在以前的工作中没有得到很好的研究。SemGCN不依赖于手工制作的约束[10,13,51]来分析特定应用程序的模式,因此可以很容易地推广到其他任务。        

        特别地,我们研究了二维到三维人体姿态回归的SemGCN。给定一个2D人体姿势(以及可选的相关图像)作为输入,我们的目标是预测其相应的3D关节在特定坐标空间中的位置。用SemGCN来表示这个问题是直观的。2D和3D姿态都可以自然地由2D或3D坐标形式的规范骨架表示,SemGCN可以明确地利用它们的空间关系,这对于理解人类行为至关重要[67]。

        我们的工作有以下几点贡献:首先,我们提出了一种改进的图卷积操作,称为语义图卷积(SemGConv),它源自cnn。其关键思想是学习图中暗示的边的信道权值,然后将它们与核矩阵结合起来。这大大提高了图卷积的能力。其次,我们引入了SemGCN,其中SemGConv层与非局部[65]层交叉。该体系结构捕获节点之间的本地和全局关系。第三,我们提出了一个端到端学习框架,以表明SemGCN还可以合并外部信息,如图像内容,以进一步提高3D人体姿态回归的性能。

        通过严格的消融研究和与标准3D基准技术的比较,我们的方法的有效性得到了全面评估的验证。我们的方法与Human3.6M[24]上的最先进技术的性能相匹配,仅使用二维关节坐标作为输入,并且减少了90%的参数。同时,当结合图像特征时,我们的方法优于目前的技术水平。此外,我们还展示了SemGCN的可视化结果,从定性上证明了我们的方法的有效性。请注意,提出的框架可以很容易地推广到其他回归任务,我们将其留给将来的工作。


2. 相关工作

图卷积网络。将cnn推广到具有图状结构的输入是深度学习领域的一个重要课题。在文献中,已经有几次尝试使用递归神经网络来处理图域中表示的数据,如有向无环图[14]。gnn在[17,28,49]中被引入,作为处理任意图数据的更常见的解决方案。在图上构造GCNs的原理一般有两种:光谱视角和空间视角。我们的工作属于第二种流[28,39,60],其中卷积滤波器直接应用于图节点及其邻居。

最近关于计算机视觉的研究通过利用GCNs来建模视觉对象之间的关系[68,70]或时间序列[66,67],取得了最先进的性能。本文遵循了它们的精神,同时我们探索了将GCNs应用于回归任务,特别是2D到3D人体姿态回归。

三维姿态估计。Lee和Chen[30]首先研究了从相应的2D投影推断3D关节。后来的方法要么利用最近邻来细化姿态推断的结果[18,25],要么提取手工制作的特征[1,23,47],以供后期回归。其他方法创建了过完备基,适合将人体姿势表示为稀疏组合[2,4,44,62,77]。越来越多的研究集中在利用深度神经网络寻找二维和三维关节位置之间的映射。一些算法直接从图像中预测3D姿态[75],而其他算法则将2D热图与体积表示[41]、成对距离矩阵估计[36]或图像线索[56]相结合,用于3D人体姿态回归。

近年来,二维姿态信息已被证明是三维姿态估计的关键。马丁内斯等[34]在介绍了一种简单而有效的方法,预测3D关键点纯粹基于二维检测。Fang等[13]通过姿态语法网络进一步扩展了这种方法。这些工作主要集中在2D到3D的姿态回归,这与本文的背景最相关。



马丁内斯等[34]:A simple yet effective baseline for 3d human pose estimation


其他方法使用合成数据集,这些数据集是由使用ground true变形人类模板模型[8,42,48]生成的,或在关节之外引入涉及高级知识的损失函数[40,53,69]。它们是相互补充的。剩余的工作目标是利用时间信息[11,18,21,57]进行三维姿态回归。它们超出了本文的范围,因为我们的目标是处理来自单张图像的2D姿态。然而,我们的方法可以很容易地扩展到序列输入,我们把它留给将来的工作。
 


3. Semantic Graph Convolutional Networks

        我们提出了一种新的图网络架构来处理涉及数据的一般回归任务,这些数据可以用图的形式表示。我们首先提供了GCNs的背景和相关的基线方法。然后介绍了SemGCN的详细设计。

        我们假设图数据共享相同的拓扑结构,例如人类骨骼[10,26,61,67],3D变形模型[33,45,72]和引用网络[50]。其他在同一域中具有不同图结构的问题,如蛋白质-蛋白质相互作用[60]和量子化学[15],不在本文讨论范围之内。这一假设使得学习图结构中隐含的先验成为可能,这激发了SemGCN。


3.1. ResGCN: A Baseline

        我们将首先简要回顾[28]中提出的 ‘vanilla’ GCNs。设G = {V, E}表示一个图,其中V是K个节点的集合,E是边,\vec{​{x_{i}^{l}}}

 其中\bar{A}



 


图1所示。所提出的语义图卷积的说明。(a) CNN的3×3卷积核(绿色突出显示)对于内核内的每个位置学习不同的变换矩阵wi。我们通过学习每个位置的权重向量ai和共享变换矩阵w来近似它。(b)传统的GCNs只学习所有节点的共享变换矩阵w0。(c) (a)中的近似公式可以直接推广到(b):我们为图中的每个节点增加一个额外的可学习权值a_{i}

 其中\rho _{i}

 其中 || 表示对所有层的输入进行拼接,\vec{w_{d}}



 图2.提出的 Semantic Graph Convolutional Networks的例子。我们的网络的构建块是由两个具有128个通道的SemGConv层构建的一个剩余块[20],后面是一个非本地层[65]。这个动作重复四次。所有SemGConv层后面都有批规范化[22]和ReLU激活[37],最后一个除外


        捕获图中节点之间的全局和远程关系能够有效地解决接受域有限的问题。然而,为了保持GCNs的行为,我们通过计算节点之间的响应来限制特征更新机制,而不是学习新的卷积滤波器。因此,我们遵循非局部均值概念[5,65],将运算定义为:

 其中W_{x}

 

        我们认为图像内容能够为解决模棱两可的情况提供重要的线索,例如经典的旋转芭蕾舞者光学错觉。因此,我们通过将图像内容作为额外的约束来扩展Eq. 5。扩展后的公式可以表示为:

其中I_{i}



图3。我们的框架的插图,结合图像特征的3D人体姿势估计。我们预先训练一个二维姿态估计网络来预测二维关节位置。它也是我们汇集图像特征的骨干网络。所提出的SemGCN从二维关节和图像特征预测三维姿态。注意,整个框架是端到端可训练的。



4.2. Perceptual Feature Pooling感知特征池

        ResNet[20]和HourGlass[38]被广泛应用于传统的人体姿态检测问题。在经验上,我们使用ResNet作为骨干网,因为它的中间层提供了图像的分层特征,这些特征在计算机视觉问题(如物体检测和分割)中很有用[46,74]。

        给定输入图像中每个2D关节的坐标,我们在ResNet中汇集来自多个层的特征。特别地,我们使用RoIAlign[19]将从conv 1层提取的特征连接到conv 4层。然后将这些感知特征与二维坐标连接并输入SemGCN。请注意,由于输入图像中的所有关节都具有相同的比例,我们将特征集中在以每个关节为中心的固定大小的方形包围框中,即骨架的平均骨长。如图3所示。


 4.3. Loss Function

大多数先前基于回归的方法直接最小化预测和真实关节位置[6,34,57,76]或骨向量[53]的均方误差(MSE)。遵循它们的精神,我们使用人体姿势中关节和骨骼约束的简单组合作为我们的损失函数,定义为:

 其中\jmath =\left \{ J_{i}||i=1,...,K \right \}预测三维关节坐标,B = \left \{ \tilde{B_{i}}|| i=1,...,M \right \}为从J开始计算的骨骼;Ji和Bi是数据集中对应的ground truth。每个骨都是一个有向向量,从起始关节指向[53]中定义的相关父关节。


5.实验

实验部分就不具体写了





推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 单元测试:使用mocha和should.js搭建nodejs的单元测试
    2019独角兽企业重金招聘Python工程师标准BDD测试利器:mochashould.js众所周知对于任何一个项目来说,做好单元测试都是必不可少 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • Visual Studio Code (VSCode) 是一款功能强大的源代码编辑器,支持多种编程语言,具备丰富的扩展生态。本文将详细介绍如何在 macOS 上安装、配置并使用 VSCode。 ... [详细]
  • 秒建一个后台管理系统?用这5个开源免费的Java项目就够了
    秒建一个后台管理系统?用这5个开源免费的Java项目就够了 ... [详细]
  • 本文介绍了如何使用 Node.js 和 Express(4.x 及以上版本)构建高效的文件上传功能。通过引入 `multer` 中间件,可以轻松实现文件上传。首先,需要通过 `npm install multer` 安装该中间件。接着,在 Express 应用中配置 `multer`,以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置,帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 解决针织难题:R语言编程技巧与常见错误分析 ... [详细]
  • 本文通过具体实例详细分析了哈希冲突的原因及其潜在影响,并探讨了多种有效的解决策略。研究不仅涵盖了MD5等常用哈希算法的局限性,还提出了基于哈希表扩展、双哈希技术和布隆过滤器等方法的综合解决方案,以提高数据处理的可靠性和效率。 ... [详细]
  • 在拉斯维加斯举行的Interop 2011大会上,Bitcurrent的Alistair Croll发表了一场主题为“如何以云计算的视角进行思考”的演讲。该演讲深入探讨了传统IT思维与云计算思维之间的差异,并提出了在云计算环境下应具备的新思维方式。Croll强调了灵活性、可扩展性和成本效益等关键要素,以及如何通过这些要素来优化企业IT架构和运营。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 在《Python编程基础》课程中,我们将深入探讨Python中的循环结构。通过详细解析for循环和while循环的语法与应用场景,帮助初学者掌握循环控制语句的核心概念和实际应用技巧。此外,还将介绍如何利用循环结构解决复杂问题,提高编程效率和代码可读性。 ... [详细]
  • 本文介绍了如何利用HTTP隧道技术在受限网络环境中绕过IDS和防火墙等安全设备,实现RDP端口的暴力破解攻击。文章详细描述了部署过程、攻击实施及流量分析,旨在提升网络安全意识。 ... [详细]
author-avatar
AK47GXF
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有