【世界最大人脸对齐数据集】ICCV2017：距离解决人脸对齐已不远

作者：马黛茶总部 | 来源：互联网 | 2023-06-13 19:32

在一篇已经被ICCV2017接收的论文中，诺丁汉大学的研究人员提出了他们号称是迄今最大3D人脸对齐数据集，以及精准实现2D、3D以及2D到3D人脸对齐的

在一篇已经被ICCV 2017接收的论文中&＃xff0c;诺丁汉大学的研究人员提出了他们号称是迄今最大3D人脸对齐数据集&＃xff0c;以及精准实现2D、3D以及2D到3D人脸对齐的网络。研究人员用《我们距离解决2D&3D人脸对齐问题还有多远》为题&＃xff0c;首次调查了在所有现有2D人脸对齐数据集和新引入的大型3D数据集上&＃xff0c;距离达到接近饱和性能&＃xff08;saturating performance&＃xff09;还有多远。

ImageNet百万级精准标记数据集开启了图像识别新时代&＃xff0c;人们也由此意识到&＃xff0c;数据跟算法同样重要。为了构建更好的模型和算法&＃xff0c;越来越多的研究人员开始在数据集方面展开探索&＃xff0c;而且&＃xff0c;标记数据的方法也不仅仅限于耗时耗力的人工。

这方面最新的一项成果&＃xff0c;是诺丁汉大学计算机视觉实验室的研究人员即将在ICCV 2017发表的论文&＃xff0c;研究人员在论文中描述了他们创建的迄今最大的3D人脸对齐数据集&＃xff08;约230,000幅精准标记图像&＃xff09;&＃xff0c;以及他们使用2D到3D转换生成标记的方法。

论文标题名为《我们距离解决2D&3D人脸对齐还有多远&＃xff1f;》&＃xff08;How far are we from solving the 2D & 3D Face Alignment problem? And a dataset of 230,000 3D facial landmarks&＃xff09;。研究人员希望&＃xff0c;在此数据集的基础上&＃xff0c;人脸对齐问题将迎来更大更快的发展。

效果展示&＃xff1a;使用论文提出的网络&＃xff08;被作者称为“世界上最准确的人脸对齐网络”&＃xff09;检测面部特征点&＃xff0c;2D和3D坐标都适用。来源&＃xff1a;项目的Github

人脸对齐&＃xff0c;计算机视觉过去几十年研究最多的一个议题

随着深度学习的出现和大规模注释数据集的发展&＃xff0c;近来的工作已经显示出即使在最具挑战性的计算机视觉任务上也达到前所未有的准确性。在这项工作中&＃xff0c;作者专注于特征点定位&＃xff08;landmark localization&＃xff09;&＃xff0c;尤其是人脸特征点定位&＃xff0c;也被称为人脸对齐&＃xff08;face alignment&＃xff09;&＃xff0c;“人脸对齐”也可以说是过去几十年来计算机视觉中研究最多的主题之一。

近来关于使用卷积神经网络&＃xff08;CNN&＃xff09;的特征点定位的工作已经推动了其他领域的界限&＃xff0c;例如如人体姿态估计&＃xff0c;但目前尚不清楚在人脸对齐方面取得怎样的成果。

历史上&＃xff0c;根据任务的不同&＃xff0c;有不同的技术已被用于特征点定位。例如&＃xff0c;在神经网络出现之前&＃xff0c;人体姿态估计的工作主要是基于图结构&＃xff08;pictorial structure&＃xff09;和各种复杂的扩展&＃xff08;extension&＃xff09;&＃xff0c;因为它们能够模拟大的外观变化&＃xff0c; 适应广泛的人类姿势。这些方法虽然没有被证明能够实现用于人脸对齐任务的级联回归方法&＃xff08;cascaded regression method&＃xff09;表现出的高精确度&＃xff0c;但另一方面&＃xff0c;级联回归方法的性能在初始化不准确的情况下&＃xff0c;或有大量的自我封闭的特征点或大的平面内旋转时会变差。

最近&＃xff0c;基于热图回归&＃xff08;heatmap regression&＃xff09;的完全卷积神经网络架构彻底改变了人体姿态估计&＃xff0c;即使对于最具挑战性的数据集也得到非常高的准确度。由于它们对端到端训练和人工工程的需求很少&＃xff0c;这种方法可以很容易地应用于人脸对齐问题。

5大贡献&＃xff0c;包括首次构建强大基准&＃xff0c;使用2D-3D方法构建迄今最大数据集

作者表示&＃xff0c;按照这个路径&＃xff0c;“我们的主要贡献是构建和训练这样一个强大的人脸对齐网络&＃xff0c;并首次调查在所有现有的2D人脸对齐数据集和新引入的大型3D数据集上距离达到接近饱和性能&＃xff08;saturating performance&＃xff09;有多远”。

更具体地说&＃xff0c;他们的贡献是&＃xff1a;

1. 首次构建了一个非常强大的基准&＃xff08;baseline&＃xff09;&＃xff0c;结合state-of-the-art的特征点定位架构和state-of-the-art的 residual block&＃xff0c;并在非常大的综合扩展的2D人脸特征点数据集训练。然后&＃xff0c;我们对所有其他2D数据集&＃xff08;约230000张图像&＃xff09;进行评估&＃xff0c;调查我们距离解决2D人脸对齐问题还有多远。

2. 为了解决3D人脸对齐数据集少的问题&＃xff0c;我们进一步提出了一种将2D注释转换为3D注释的2D特征点CNN方法&＃xff0c;并使用它创建LS3D-W数据集&＃xff0c;这是迄今最大、最具挑战性的3D人脸特征点数据集&＃xff08;约230000张图像&＃xff09;&＃xff0c;这是将现有的几乎所有数据集统一起来得到的。

3. 然后&＃xff0c;我们训练了一个3D人脸对齐网络&＃xff0c;并在新的大型3D人脸特征点数据集进行评估&＃xff0c;调查我们距离解决3D人脸对齐问题尚有多远。

4. 我们进一步研究影响人脸对齐性能的所有“传统”因素&＃xff0c;例如大姿态&＃xff0c;初始化和分辨率&＃xff0c;并引入“新的”因素&＃xff0c;即网络的大小。

5. 我们的研究结果显示&＃xff0c;2D和3D人脸对齐网络都实现了非常高准确度的性能&＃xff0c;这可能是接近了所使用的数据集的饱和性能。

2D-FAN结构&＃xff1a;通过堆叠四个HG构建的人脸对齐网络&＃xff08;Face Alignment Network &＃xff0c;FAN&＃xff09;&＃xff0c;其中所有的 bottleneck blocks&＃xff08;图中矩形块&＃xff09;被替换为新的分层、并行和多尺度block。

方法及数据&＃xff1a;2D、3D标注及2D-3D转换都接近饱和性能

作者首先构建了一个人脸对齐网络“FAN”&＃xff08;Facee Alignment Network&＃xff09;&＃xff0c;然后基于FAN&＃xff0c;构建了2D-to-3D-FAN&＃xff0c;也即将给定图像2D面部地标转换为3D的网络。作者表示&＃xff0c;据他们所知&＃xff0c;在大规模2D/3D人脸对齐实验中训练且评估FAN这样强大的网络&＃xff0c;还尚属首次。

他们基于人体姿态估计最先进的架构之一HourGlass&＃xff08;HG&＃xff09;来构建FAN&＃xff0c;并且将HG原有的模块bottleneck block替换为一种新的、分层并行多尺度结构&＃xff08;由其他研究人员提出&＃xff09;。

2D-to-3D-FAN网络架构&＃xff1a;基于人体姿态估计架构HourGlass&＃xff0c;输入是RGB图像和2D面部地标&＃xff0c;输出是对应的3D面部地标。

2D-FAN标记结果

3D-FAN标记结果

下面是跟现有方法&＃xff08;红色&＃xff09;的对比&＃xff0c;这样看更能明显地看出新方法的精度&＃xff1a;

除了构建FAN&＃xff0c;作者的目标还包括创建首个超大规模的3D面部地标数据集。目前3D面部地标的数据还十分稀少&＃xff0c;因此也让这项工作贡献颇大。鉴于2D-FAN卓越的效果&＃xff0c;作者决定使用2D-to-3D-FAN来生成3D面部地标数据集。

但是&＃xff0c;这也带来了一个问题&＃xff0c;那就是评估2D转3D数据很难。现有的最大同类数据集是AFLW2000-3D。于是&＃xff0c;作者先使用2D-FAN&＃xff0c;生成2D面部地标标注&＃xff0c;再使用2D-to-3D-FAN&＃xff0c;将2D数据转换为3D面部地标&＃xff0c;最后将生成的3D数据与AFLW2000-3D进行比较。

结果发现&＃xff0c;两者确实有差异&＃xff0c;下图展示了差异最大的8幅图像标记结果&＃xff08;白色是论文结果&＃xff09;&＃xff1a;

作者表示&＃xff0c;造成差异的最大原因是&＃xff0c;以前的方法半自动标记管道对一些复杂姿态没有生成准确的结果。于是&＃xff0c;在改进数据后&＃xff0c;他们将AFLW2000-3D纳入现有数据集&＃xff0c;创建了LS3D-W&＃xff08;Large Scale 3D Faces in-the-Wild dataset&＃xff09;&＃xff0c;一共包含了大约230,000幅标记图像&＃xff0c;也是迄今最大的3D人脸对齐数据集。

作者之后从各个方面评估了LS3D-W数据集的性能。研究结果表明&＃xff0c;他们的网络已经达到了数据集的“饱和性能”&＃xff0c;在构图、分辨率&＃xff0c;初始化以及网络参数数量方面表现出了超高的弹性&＃xff08;resilience&＃xff09;。更多信息参见论文。

作者表示&＃xff0c;虽然他们还没有在这些数据集中去探索一些罕见姿态的效果&＃xff0c;但只要有足够多的数据&＃xff0c;他们确信网络也能够表现得一样好。

论文&＃xff1a;我们距离解决2D&3D人脸对齐还有多远&＃xff1f;

摘要

本文研究了一个非常深的神经网络在现有的2D和3D人脸对齐数据集上达到接近饱和性能的程度。为这个目的&＃xff0c;我们提出做了5个贡献&＃xff1a;&＃xff08;a&＃xff09;结合最先进的人脸特征点定位&＃xff08;landmark localization&＃xff09;架构和最先进的残差模块&＃xff08;residual block&＃xff09;&＃xff0c;我们首次构建了一个非常强大的基准&＃xff0c;在一个非常大的2D人脸特征点数据集&＃xff08;facial landmark dataset&＃xff09;上训练&＃xff0c;并在所有其他人脸特征点数据集上进行评估。&＃xff08;b&＃xff09;我们创建了一个将2D特征点标注转换为3D&＃xff0c;并统一所有现有的数据集&＃xff0c;从而创建了迄今最大、最具有挑战性的3D人脸特征点数据集LS3D-W&＃xff08;约230000张图像&＃xff09;。&＃xff08;c&＃xff09;然后&＃xff0c;我们训练一个神经网络来进行3D人脸对齐&＃xff08;face alignment&＃xff09;&＃xff0c;并在新的LS3D-W数据集上进行评估。&＃xff08;d&＃xff09;我们进一步研究影响人脸对齐性能的所有“传统”因素&＃xff0c;例如大姿态( large pose)&＃xff0c;初始化和分辨率&＃xff0c;并引入一个“新的”因素&＃xff0c;即网络的大小。&＃xff08;e&＃xff09;我们的研究显示2D和3D人脸对齐网络都实现了非常高的性能&＃xff0c;这很可能接近所使用的数据集的饱和性能。训练和测试代码以及数据集可以从 https://www.adrianbulat.com/face-alignment/ 下载。

论文&＃xff1a;https://arxiv.org/pdf/1703.07332.pdf
Github&＃xff1a;https://github.com/1adrianb/face-alignment

以及模型下载

2D-FAN&＃xff1a;https://www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7
3D-FAN&＃xff1a;https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7
2D-to-3D FAN&＃xff1a;https://www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz
3D-FAN-depth&＃xff1a;https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth

推荐阅读

ip
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
ip
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
ip
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
int
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
ip
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
ip
大型网站技术架构：核心原理与案例分析的思维导图解析

本文通过思维导图的形式，深入解析了大型网站技术架构的核心原理与实际案例。首先，探讨了大型网站架构的演化过程，从单体应用到分布式系统的转变，以及各阶段的关键技术和挑战。接着，详细分析了常见的大型网站架构模式，包括负载均衡、缓存机制、数据库设计等，并结合具体案例进行说明。这些内容不仅有助于理解大型网站的技术实现，还能为实际项目提供宝贵的参考。 ... [详细]

蜡笔小新 2024-11-11 16:13:07
ip
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
ip
神经元研究动态：城市大脑标准化体系及评估指标综合框架分析

神经元研究动态：城市大脑标准化体系及评估指标综合框架分析 ... [详细]

蜡笔小新 2024-11-07 15:56:03
int
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
dagger
移动开发人员晋升与加薪必备的八大技能，值得珍藏

经过半年的精心整理，我们汇总了当前市场上最全面的Android面试题解析，为移动开发人员的晋升和加薪提供了宝贵的参考资料。本书详细涵盖了从基础到高级的各类面试题，帮助读者全面提升技术实力和面试表现。章节目录包括：- 第一章：Android基础面试题- 第二章：... ... [详细]

蜡笔小新 2024-11-02 19:22:15
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
object
单元测试：使用mocha和should.js搭建nodejs的单元测试

2019独角兽企业重金招聘Python工程师标准BDD测试利器：mochashould.js众所周知对于任何一个项目来说，做好单元测试都是必不可少 ... [详细]

蜡笔小新 2024-11-12 11:08:57
int
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
int
Python AlphaShape：基于点集估算图像区域的Alpha形状算法解析

本文探讨了基于点集估算图像区域的Alpha形状算法在Python中的应用。通过改进传统的Delaunay三角剖分方法，该算法能够生成更加灵活和精确的形状轮廓，避免了单纯使用Delaunay三角剖分时可能出现的过大三角形问题。这种“模糊Delaunay三角剖分”技术不仅提高了形状的准确性，还增强了对复杂图像区域的适应能力。 ... [详细]

蜡笔小新 2024-11-03 17:11:41

马黛茶总部

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章