深度学习之视频人脸识别系列二：人脸检测与对齐

作者： | 来源：互联网 | 2023-09-18 10:47

https:blog.csdn.netfendouainiarticledetails82025759【磐创AI导读】本文是深度学习之视频人脸识别系列的第二篇文章，介

https://blog.csdn.net/fendouaini/article/details/82025759

【磐创AI导读】本文是深度学习之视频人脸识别系列的第二篇文章&＃xff0c;介绍人脸检测与对齐的相关算法。欢迎大家关注我们的公众号&＃xff1a;磐创AI。

一、人脸检测与关键点检测

问题描述&＃xff1a;
人脸检测解决的问题为给定一张图片&＃xff0c;输出图片中人脸的位置&＃xff0c;即使用方框框住人脸&＃xff0c;输出方框的左上角坐标和右下角坐标或者左上角坐标和长宽。算法难点包括&＃xff1a;人脸大小差异、人脸遮挡、图片模糊、角度与姿态差异、表情差异等。而关键检测则是输出人脸关键点的坐标&＃xff0c;如左眼&＃xff08;x1&＃xff0c;y1&＃xff09;、右眼&＃xff08;x2&＃xff0c;y2&＃xff09;、鼻子&＃xff08;x3&＃xff0c;y3&＃xff09;、嘴巴左上角&＃xff08;x4&＃xff0c;y4&＃xff09;、嘴巴右上角&＃xff08;x5&＃xff0c;y5&＃xff09;等。

深度学习相关算法&＃xff1a;
&＃xff08;1&＃xff09;Cascade CNN

Cascade CNN源于发表于2015年CVPR上的一篇论文A Convolutional Neural Network Cascade for Face Detection【2】&＃xff0c;作者提出了一种级连的CNN网络结构用于人脸检测。算法主体框架是基于V-J的瀑布流思想【1】&＃xff0c;是传统技术和深度网络相结合的一个代表&＃xff0c;Cascade CNN包含了多个分类器&＃xff0c;这些分类器使用级联结构进行组织&＃xff0c;与V-J不同的地方在于Cascade CNN采用卷积网络作为每一级的分类器。整个网络的处理流程如下图所示&＃xff1a;

整个处理流程里包含了六个网络&＃xff1a;12-net、12-calibration-net、24-net、24-calibration-net、48-net、48-calibration-net&＃xff0c;其中三个二分类网络用于分类其是否为人脸&＃xff0c;另外三个calibration网络用于矫正人脸框边界。其中第二个网络之后、第四个网络之后、第五个网络之后使用NMS算法过滤掉冗余的框。

12-net&＃xff0c;24-net和48-net的网络结构如下图所示&＃xff1a;

13-12-calibration-net&＃xff0c;24-calibration-net&＃xff0c;48-calibration-net的结构如下图所示&＃xff1a;

该算法结合了V-J框架构造了级连的CNN网络结构并设计边界矫正网络用来专门矫正人脸框边界&＃xff0c;在AFW数据集上准确率达到97.97%。

&＃xff08;2&＃xff09;Faceness-Net

Faceness-Net源于论文A convolutional neural network cascade for face detection【3】&＃xff0c;该算法基于DCNN网络【5】的人脸局部特征分类器&＃xff0c;算法首先进行人脸局部特征的检测&＃xff0c;使用多个基于DCNN网络的facial parts分类器对人脸进行评估&＃xff0c;然后根据每个部件的得分进行规则分析得到Proposal的人脸区域&＃xff0c;然后从局部到整体得到人脸候选区域&＃xff0c;再对人脸候选区域进行人脸识别和矩形框坐标回归&＃xff0c;该过程分为两个步骤。

第一个步骤&＃xff1a;每个人脸局部特征使用attribute-aware网络检测并生成人脸局部图&＃xff0c;其中一共五个特征属性&＃xff1a; 头发、眼睛、鼻子、嘴巴、胡子。然后通过人脸局部图根据评分构建人脸候选区域&＃xff0c;具体如下图所示&＃xff1a;

第二个步骤&＃xff1a;训练一个多任务的卷积网络来完成人脸二分类和矩形框坐标回归&＃xff0c;进一步提升其效果&＃xff0c;具体如下图所示&＃xff1a;

Faceness从脸部特征的角度来解决人脸检测中的遮挡和姿态角度问题&＃xff0c;其整体性能在当时是非常好的&＃xff0c;在AFW数据集上准确率可以达到98.05%。

&＃xff08;3&＃xff09;MTCNN

MTCNN源于论文Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks【6】&＃xff0c;是基于多任务级联卷积神经网络来解决人脸检测和对齐问题&＃xff0c;同时输出图片的人脸矩阵框和关键点坐标&＃xff08;左眼、右眼、鼻子、嘴巴左上角、嘴巴右上角&＃xff09;。MTCNN为三阶的级联卷积神经网络&＃xff0c;整体框架如下图所示&＃xff1a;

输入阶段&＃xff1a;为应对目标多尺度问题&＃xff0c;将原始图像resize到不同尺寸&＃xff0c;构建图像金字塔&＃xff0c;作为三阶级联架构的输入&＃xff0c;这样处理可以更好地检测大小不一的人脸。

第一阶段&＃xff1a;通过一个全部由卷积层组成的CNN&＃xff0c;取名P-Net&＃xff0c;获取候选人脸框、关键点坐标和人脸分类&＃xff08;是人脸或不是&＃xff09;&＃xff0c;之后采用NMS过滤掉高重叠率的候选窗口。如下图所示&＃xff1a;

第二阶段&＃xff1a;第一阶段输出的候选人脸框作为更为复杂的R-Net网络的输入&＃xff0c;R-Net进一步筛除大量错误的候选人脸框&＃xff0c;同样也通过NMS过滤掉高重叠率的候选窗口。如下图所示&＃xff1a;

第三阶段&＃xff1a;与第二阶段类似&＃xff0c;最终网络输出人脸框坐标、关键点坐标和人脸分类&＃xff08;是人脸或不是&＃xff09;。如下图所示&＃xff1a;

MTCNN通过三级的级联卷积神经网络对任务进行从粗到细的处理&＃xff0c;还提出在线困难样本生成策略&＃xff08;online hard sample mining &＃xff09;可以进一步提升性能。兼并了速度与准确率&＃xff0c;速度在GPU上可以达到99FPS&＃xff0c;在 FDDB数据集上可以达到95.04准确率&＃xff0c;具体如下图所示&＃xff1a;

二、人脸对齐&＃xff08;部分参考于GraceDD的博客文章&＃xff09;

人脸对齐通过人脸关键点检测得到人脸的关键点坐标&＃xff0c;然后根据人脸的关键点坐标调整人脸的角度&＃xff0c;使人脸对齐&＃xff0c;由于输入图像的尺寸是大小不一的&＃xff0c;人脸区域大小也不相同&＃xff0c;角度不一样&＃xff0c;所以要通过坐标变换&＃xff0c;对人脸图像进行归一化操作。人脸关键点检测有很多算法可以使用包括&＃xff1a;ASM、AAM、DCNN 、TCDCN 、MTCNN 、TCNN、TCNN等&＃xff0c;这里就不详细介绍&＃xff0c;主要说一下得到人脸关键点之后如何进行人脸对齐&＃xff0c;是所有人脸达到归一化效果&＃xff0c;该过程如下图所示&＃xff1a;

该过程涉及到图像的仿射变换&＃xff0c;简单来说&＃xff0c;“仿射变换”就是&＃xff1a;“线性变换”&＃43;“平移”&＃xff0c;即坐标的变换。假如我们希望人脸图片归一化为尺寸大小600*600&＃xff0c;左眼位置在&＃xff08;180&＃xff0c;200&＃xff09;&＃xff0c;右眼位置在&＃xff08;420&＃xff0c;200&＃xff09;。这样人脸中心在图像高度的1/3位置&＃xff0c;并且两个眼睛保持水平&＃xff0c;所以我们选择左眼角位置为( 0.3*width, height / 3 )&＃xff0c;右眼角位置为&＃xff08;0.7*width , height / 3&＃xff09; 。

利用这两个点计算图像的变换矩阵&＃xff08;similarity transform&＃xff09;&＃xff0c;该矩阵是一个2*3的矩阵&＃xff0c;如下&＃xff1a;

如果我们想对一个矩形进行变换&＃xff0c;其中x、y方向的缩放因为分别为sx&＃xff0c;sy&＃xff0c;同时旋转一个角度 &＃xff0c;然后再在x方向平移tx, 在y方向平移ty

利用opencv的estimateRigidTransform方法&＃xff0c;可以获得这样的变换矩阵&＃xff0c;但遗憾的是&＃xff0c;estimateRigidTransform至少需要三个点&＃xff0c;所以我们需要构选第三个点&＃xff0c;构造方法是用第三个点与已有的两个点构成等边三角形&＃xff0c;这样第三个点的坐标为&＃xff1a;

代码如下&＃xff1a;

经过上一步的处理之后&＃xff0c;所有的图像都变成一样大小&＃xff0c;并且又三个关键点的位置是保持一致的&＃xff0c;但因为除了三个点对齐了之外&＃xff0c;其他点并没有对齐。所以根据得到的变换矩阵对剩下所有的点进行仿射变换&＃xff0c;opencv代码如下所示&＃xff1a;

img为输入图像;

warped为变换后图像&＃xff0c;类型与src一致;

M为变换矩阵&＃xff0c;需要通过其它函数获得&＃xff0c;当然也可以手动输入;

Image_size为输出图像的大小;

三、总结

本期文章主要介绍了人脸检测与对齐的相关算法&＃xff0c;下一期我给大家介绍一下人脸表征的相关算法&＃xff0c;即通过深度学习提取人脸特征&＃xff0c;通过比较人脸特征进行人脸识别与验证。

参考文献&＃xff1a;

【1】 S.Z.Li, L.Zhu, Z.Q.Zhang, A.Blake, H.J.Zhang, H.Y.Shum. Statistical learning of multi-view face detection. In: Proceedings of the 7-th European Conference on Computer Vision. Copenhagen, Denmark: Springer, 2002.67-81.

【2】Li H, Lin Z, Shen X, et al. A convolutional neural network cascade for face detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 5325-5334.

【3】Yang S, Luo P, Loy C C, et al. Faceness-Net: Face detection through deep facial part responses[J]. IEEE transactions on pattern analysis and machine intelligence, 2017.

【4】Yang S, Luo P, Loy C C, et al. From facial parts responses to face detection: A deep learning approach[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3676-3684.

【5】Sun Y, Wang X, Tang X. Deep convolutional network cascade for facial point detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2013: 3476-3483.

【6】Zhang K, Zhang Z, Li Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.

推荐阅读

future
如何将过往经历转化为职场动力

本文探讨了如何将个人经历，特别是非传统的职业路径，转化为职业生涯中的优势。通过作者的亲身经历，展示了舞蹈生涯对商业思维的影响。 ... [详细]

蜡笔小新 2024-11-21 17:49:51
go
视觉Transformer综述

本文综述了视觉Transformer在计算机视觉领域的应用，从原始Transformer出发，详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构，还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]

蜡笔小新 2024-11-22 19:53:16
substring
【转】blocks实践指南

转自：http:blog.sina.com.cnsblog_67419c420100vmkt.html 1.为什么要使用blocks将一个blocks作为函数或者方法的参数传递，可 ... [详细]

蜡笔小新 2024-11-26 17:08:39
uri
spring boot使用jetty无法启动

spring boot使用jetty无法启动 ... [详细]

蜡笔小新 2024-11-21 10:15:52
uri
MySQL 安装指南

本文档提供了详细的MySQL安装步骤，包括解压安装文件、选择安装类型、配置MySQL服务以及设置管理员密码等关键环节，帮助用户顺利完成MySQL的安装。 ... [详细]

蜡笔小新 2024-11-27 09:10:30
format
字符、字符串和文本的处理之Char类型

.NetFramework中处理字符和字符串的主要有以下这么几个类:(1)、System.Char类一基础字符串处理类(2)、System.String类一处理不可变的字符串(一经 ... [详细]

蜡笔小新 2024-11-26 21:04:40
email
Navicat Premium中MySQL用户管理：创建新用户及高级设置

本文作为Navicat Premium用户管理系列的第二部分，主要介绍如何创建新的MySQL用户，包括设置基本账户信息、密码策略、账户限制以及SSL配置等。 ... [详细]

蜡笔小新 2024-11-26 19:43:05
const
React Native中组件尺寸获取及屏幕单位转换详解

本文介绍了如何在React Native应用中获取组件的实际宽度和高度，并详细说明了屏幕单位（如dp）与像素（px）之间的转换方法。 ... [详细]

蜡笔小新 2024-11-26 19:14:54
format
HDU 2537 键盘输入处理

题目描述了一个名叫Pirates的男孩想要开发一款键盘输入软件，遇到了大小写字母判断的问题。本文提供了该问题的解决方案及实现方法。 ... [详细]

蜡笔小新 2024-11-24 11:01:59
go
41款高效LISP工具助力数据处理全流程

本文由公众号【数智物语】(ID: decision_engine)发布，关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程，介绍了41款实用工具，旨在帮助数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-11-24 00:11:50
const
Vue CLI 3 项目中使用 Pre-render SPA Plugin 进行预渲染

页面预渲染适用于主要包含静态内容的页面。对于依赖大量API调用的动态页面，建议采用SSR（服务器端渲染），如Nuxt等框架。更多优化策略可参见：https://github.com/HaoChuan9421/vue-cli3-optimization ... [详细]

蜡笔小新 2024-11-23 22:19:17
uri
2023年7月7日网络安全动态

汇总了2023年7月7日最新的网络安全新闻和技术更新，包括最新的漏洞披露、工具发布及安全事件。 ... [详细]

蜡笔小新 2024-11-23 13:35:48
utf-8
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
list
解决SQL Server中几何类型列的INTERSECT操作问题

本文探讨了在SQL Server中处理几何类型列时遇到的INTERSECT操作限制，并提供了解决方案，包括通过转换数据类型和使用额外表结构的方法。 ... [详细]

蜡笔小新 2024-11-20 20:09:58
list
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01

Tags | 热门标签

RankList | 热门文章