热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【论文翻译】SemanticGraphConvolutionalNetworksfor3DHumanPoseRegression

【iccv论文】https:openaccess.thecvf.comcontent_CVPR_2019papersZhao_Semantic_Graph_Convolutiona



【iccv论文】https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhao_Semantic_Graph_Convolutional_Networks_for_3D_Human_Pose_Regression_CVPR_2019_paper.pdf
【github】https://github.com/garyzhao/SemGCN




摘要

        在本文中,我们研究了用于回归的图卷积网络(GCNs)学习问题。目前的GCNs架构局限于每个节点的卷积滤波器和共享变换矩阵的小接受域。为了解决这些限制,我们提出了语义图卷积网络(SemGCN),这是一种新型的神经网络架构,可以在使用图结构数据的回归任务上运行。SemGCN学习捕获语义信息,如局部和全局节点关系,这些信息在图中没有显式表示。这些语义关系可以通过端到端训练来学习,而不需要额外的监督或手工制定的规则。我们进一步研究了将SemGCN应用于三维人体姿态回归。我们的公式是直观和充分的,因为2D和3D人体姿势都可以表示为编码人体骨骼中关节之间关系的结构化图。我们进行了全面的研究来验证我们的方法。结果证明,SemGCN在使用少90%参数的情况下性能优于目前的技术水平。



1. 介绍

        卷积神经网络(cnn)已经成功解决了经典的计算机视觉问题,如图像分类[12,29,31,52],目标检测[19,46,55,63,74,79]和生成[43,58,71,73,80],其中输入图像具有网格状结构。然而,许多现实世界的任务,如分子结构、社会网络和3D网格,只能以不规则结构的形式表示,cnn的应用范围有限。

        为了解决这一限制,图卷积网络(GCNs)[17,28,49]最近被引入,作为cnn的泛化,它可以直接处理一类一般的图。当应用于3D网格变形[45,64]、图像字幕[70]、场景理解[68]和视频识别[66,67]时,它们已经达到了最先进的性能。这些工作利用GCNs建模视觉对象的关系进行分类。在本文中,我们研究了使用深度GCNs进行回归,这是计算机视觉的另一个核心问题,具有许多实际应用。

        然而,由于基线方法的以下局限性,GCNs不能直接应用于回归问题[28,64,67]。首先,为了解决图节点可能有不同数量的邻域的问题,卷积滤波器对所有节点共享相同的权值矩阵,这与cnn不具有可比性。其次,通过将过滤器限制在每个节点周围的一步邻域内,根据[28]的指导,简化了前面的方法。由于这种形式,卷积核的接受域被限制为1,这严重影响了信息交换的效率,特别是当网络变深时。

        在这项工作中,我们提出了一种新的用于回归的图神经网络架构,称为语义图卷积网络(SemGCN),以解决上述限制。具体来说,我们研究了在给定图中编码的学习语义信息,即节点的局部和全局关系,这在以前的工作中没有得到很好的研究。SemGCN不依赖于手工制作的约束[10,13,51]来分析特定应用程序的模式,因此可以很容易地推广到其他任务。        

        特别地,我们研究了二维到三维人体姿态回归的SemGCN。给定一个2D人体姿势(以及可选的相关图像)作为输入,我们的目标是预测其相应的3D关节在特定坐标空间中的位置。用SemGCN来表示这个问题是直观的。2D和3D姿态都可以自然地由2D或3D坐标形式的规范骨架表示,SemGCN可以明确地利用它们的空间关系,这对于理解人类行为至关重要[67]。

        我们的工作有以下几点贡献:首先,我们提出了一种改进的图卷积操作,称为语义图卷积(SemGConv),它源自cnn。其关键思想是学习图中暗示的边的信道权值,然后将它们与核矩阵结合起来。这大大提高了图卷积的能力。其次,我们引入了SemGCN,其中SemGConv层与非局部[65]层交叉。该体系结构捕获节点之间的本地和全局关系。第三,我们提出了一个端到端学习框架,以表明SemGCN还可以合并外部信息,如图像内容,以进一步提高3D人体姿态回归的性能。

        通过严格的消融研究和与标准3D基准技术的比较,我们的方法的有效性得到了全面评估的验证。我们的方法与Human3.6M[24]上的最先进技术的性能相匹配,仅使用二维关节坐标作为输入,并且减少了90%的参数。同时,当结合图像特征时,我们的方法优于目前的技术水平。此外,我们还展示了SemGCN的可视化结果,从定性上证明了我们的方法的有效性。请注意,提出的框架可以很容易地推广到其他回归任务,我们将其留给将来的工作。


2. 相关工作

图卷积网络。将cnn推广到具有图状结构的输入是深度学习领域的一个重要课题。在文献中,已经有几次尝试使用递归神经网络来处理图域中表示的数据,如有向无环图[14]。gnn在[17,28,49]中被引入,作为处理任意图数据的更常见的解决方案。在图上构造GCNs的原理一般有两种:光谱视角和空间视角。我们的工作属于第二种流[28,39,60],其中卷积滤波器直接应用于图节点及其邻居。

最近关于计算机视觉的研究通过利用GCNs来建模视觉对象之间的关系[68,70]或时间序列[66,67],取得了最先进的性能。本文遵循了它们的精神,同时我们探索了将GCNs应用于回归任务,特别是2D到3D人体姿态回归。

三维姿态估计。Lee和Chen[30]首先研究了从相应的2D投影推断3D关节。后来的方法要么利用最近邻来细化姿态推断的结果[18,25],要么提取手工制作的特征[1,23,47],以供后期回归。其他方法创建了过完备基,适合将人体姿势表示为稀疏组合[2,4,44,62,77]。越来越多的研究集中在利用深度神经网络寻找二维和三维关节位置之间的映射。一些算法直接从图像中预测3D姿态[75],而其他算法则将2D热图与体积表示[41]、成对距离矩阵估计[36]或图像线索[56]相结合,用于3D人体姿态回归。

近年来,二维姿态信息已被证明是三维姿态估计的关键。马丁内斯等[34]在介绍了一种简单而有效的方法,预测3D关键点纯粹基于二维检测。Fang等[13]通过姿态语法网络进一步扩展了这种方法。这些工作主要集中在2D到3D的姿态回归,这与本文的背景最相关。



马丁内斯等[34]:A simple yet effective baseline for 3d human pose estimation


其他方法使用合成数据集,这些数据集是由使用ground true变形人类模板模型[8,42,48]生成的,或在关节之外引入涉及高级知识的损失函数[40,53,69]。它们是相互补充的。剩余的工作目标是利用时间信息[11,18,21,57]进行三维姿态回归。它们超出了本文的范围,因为我们的目标是处理来自单张图像的2D姿态。然而,我们的方法可以很容易地扩展到序列输入,我们把它留给将来的工作。
 


3. Semantic Graph Convolutional Networks

        我们提出了一种新的图网络架构来处理涉及数据的一般回归任务,这些数据可以用图的形式表示。我们首先提供了GCNs的背景和相关的基线方法。然后介绍了SemGCN的详细设计。

        我们假设图数据共享相同的拓扑结构,例如人类骨骼[10,26,61,67],3D变形模型[33,45,72]和引用网络[50]。其他在同一域中具有不同图结构的问题,如蛋白质-蛋白质相互作用[60]和量子化学[15],不在本文讨论范围之内。这一假设使得学习图结构中隐含的先验成为可能,这激发了SemGCN。


3.1. ResGCN: A Baseline

        我们将首先简要回顾[28]中提出的 ‘vanilla’ GCNs。设G = {V, E}表示一个图,其中V是K个节点的集合,E是边,\vec{​{x_{i}^{l}}}

 其中\bar{A}



 


图1所示。所提出的语义图卷积的说明。(a) CNN的3×3卷积核(绿色突出显示)对于内核内的每个位置学习不同的变换矩阵wi。我们通过学习每个位置的权重向量ai和共享变换矩阵w来近似它。(b)传统的GCNs只学习所有节点的共享变换矩阵w0。(c) (a)中的近似公式可以直接推广到(b):我们为图中的每个节点增加一个额外的可学习权值a_{i}

 其中\rho _{i}

 其中 || 表示对所有层的输入进行拼接,\vec{w_{d}}



 图2.提出的 Semantic Graph Convolutional Networks的例子。我们的网络的构建块是由两个具有128个通道的SemGConv层构建的一个剩余块[20],后面是一个非本地层[65]。这个动作重复四次。所有SemGConv层后面都有批规范化[22]和ReLU激活[37],最后一个除外


        捕获图中节点之间的全局和远程关系能够有效地解决接受域有限的问题。然而,为了保持GCNs的行为,我们通过计算节点之间的响应来限制特征更新机制,而不是学习新的卷积滤波器。因此,我们遵循非局部均值概念[5,65],将运算定义为:

 其中W_{x}

 

        我们认为图像内容能够为解决模棱两可的情况提供重要的线索,例如经典的旋转芭蕾舞者光学错觉。因此,我们通过将图像内容作为额外的约束来扩展Eq. 5。扩展后的公式可以表示为:

其中I_{i}



图3。我们的框架的插图,结合图像特征的3D人体姿势估计。我们预先训练一个二维姿态估计网络来预测二维关节位置。它也是我们汇集图像特征的骨干网络。所提出的SemGCN从二维关节和图像特征预测三维姿态。注意,整个框架是端到端可训练的。



4.2. Perceptual Feature Pooling感知特征池

        ResNet[20]和HourGlass[38]被广泛应用于传统的人体姿态检测问题。在经验上,我们使用ResNet作为骨干网,因为它的中间层提供了图像的分层特征,这些特征在计算机视觉问题(如物体检测和分割)中很有用[46,74]。

        给定输入图像中每个2D关节的坐标,我们在ResNet中汇集来自多个层的特征。特别地,我们使用RoIAlign[19]将从conv 1层提取的特征连接到conv 4层。然后将这些感知特征与二维坐标连接并输入SemGCN。请注意,由于输入图像中的所有关节都具有相同的比例,我们将特征集中在以每个关节为中心的固定大小的方形包围框中,即骨架的平均骨长。如图3所示。


 4.3. Loss Function

大多数先前基于回归的方法直接最小化预测和真实关节位置[6,34,57,76]或骨向量[53]的均方误差(MSE)。遵循它们的精神,我们使用人体姿势中关节和骨骼约束的简单组合作为我们的损失函数,定义为:

 其中\jmath =\left \{ J_{i}||i=1,...,K \right \}预测三维关节坐标,B = \left \{ \tilde{B_{i}}|| i=1,...,M \right \}为从J开始计算的骨骼;Ji和Bi是数据集中对应的ground truth。每个骨都是一个有向向量,从起始关节指向[53]中定义的相关父关节。


5.实验

实验部分就不具体写了





推荐阅读
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • ICRA2019最佳论文  Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio
    文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议:ICRA2019标题:《MakingSenseofVision ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 闭包一直是Java社区中争论不断的话题,很多语言都支持闭包这个语言特性,闭包定义了一个依赖于外部环境的自由变量的函数,这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例,介绍了闭包的定义和特性。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
author-avatar
AK47GXF
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有