利用渐进校准网络(PCN)的实时角度无关人脸检测

作者：手机用户2602936797 | 来源：互联网 | 2023-09-05 03:03

0.前言熟悉人脸相关业务的读者应该对下面这个3D人脸模型比较熟悉：可以看到在3D空间中人脸的位姿主要包含三种：平面内旋转角（左右歪头问

0. 前言

熟悉人脸相关业务的读者应该对下面这个3D人脸模型比较熟悉&＃xff1a;

3D人脸模型

可以看到在3D空间中人脸的位姿主要包含三种&＃xff1a;

平面内旋转角&＃xff08;左右歪头问题&＃xff09;&＃xff1a;roll。
平面外左右旋转&＃xff08;正脸&＃xff0c;侧脸问题&＃xff09;&＃xff1a;yaw。
平面外俯仰&＃xff08;仰头&＃xff0c;低头问题&＃xff09;&＃xff1a;pitch。

然后现在的很多人脸检测器比如我们介绍过的MTCNN&＃xff0c;FaceBoxes&＃xff0c;RetinaFace等等都实现了高精度的实时人脸检测&＃xff0c;但这些算法往往都是在直立的人脸上表现很好&＃xff0c;在角度极端的情况下表现不好。通过上面的3D模型我们想到&＃xff0c;人除了正坐和站立&＃xff0c;还有各种各样的姿态&＃xff0c;如Figure1所示&＃xff0c;导致人脸的平面旋转角度(roll)的范围是整个平面内&＃xff08;0-360度&＃xff09;&＃xff0c;注意这里我们没有考虑yaw和pitch&＃xff0c;也就是说PCN这个算法是用来解决任意平面角度的人脸检测问题。注意在论文中角度的简称是&＃xff08;rotation-in-place&＃xff08;RIP&＃xff09;angle&＃xff09;即RIP。

人脸可能有各种平面内的旋转角度

1. 介绍

基于CNN的人脸检测器受益于CNN强大的非线性特征表达能力&＃xff0c;但在检测旋转人脸时效果一般&＃xff0c;因为各个角度旋转的人脸在特征在模型训练时不容易收敛&＃xff0c;目前已有三种针对旋转人脸检测的方案&＃xff1a;数据扩充、分而治之、旋转角度探测器(rotation router)。

数据扩充&＃xff1a;最简单粗暴也最直观的方法&＃xff0c;将包含向上的人头图像均匀地做360°全角度旋转生成训练数据&＃xff0c;再用一个性能强劲的模型学习&＃xff0c;现有的upright人脸检测模型可以直接学习&＃xff0c;无需额外操作。但是&＃xff0c;为了拟合如此旋转角度的人脸场景&＃xff0c;模型性能需要比较强悍&＃xff0c;耗时较大&＃xff0c;就无法实时了。如Figure2所示&＃xff1a;

分而治之&＃xff1a;训练多个检测器&＃xff0c;每个检测器只检测一小部分偏转角度的人脸&＃xff0c;所有检测器结果融合后&＃xff0c;就可以覆盖所有方向的人脸。每个检测器只需要检测特定旋转范围内的人脸&＃xff0c;对每个检测器而言&＃xff0c;只需要一个耗时少的浅层模型即可。但是所有检测器都需要跑一遍&＃xff0c;整体耗时就增加了。另外&＃xff0c;角度是一个360度的分类或者回归问题&＃xff0c;容错空间太大&＃xff0c;如下图所示&＃xff0c;直接预测存在误差较大的可能。

旋转角度探测器。用一个CNN(rotation router)计算出旋转人脸的偏转角&＃xff0c;将旋转的人脸按偏转角校准至向上后&＃xff0c;再使用现有的upright face detector检测校准后的人脸candidates即可&＃xff0c;这符合认知常识&＃xff0c;添加一个rotation router计算人脸偏转角度即可&＃xff0c;不需要额外开销。但是精准的人脸角度计算很有挑战性&＃xff0c;为了精准的计算人脸偏转角&＃xff0c;通常都需要使用性能强悍的CNN&＃xff0c;耗时就又成为了瓶颈。

前面的三种方法要么精度不高要么耗时很大&＃xff0c;因此作者就提出了这个PCN&＃xff0c;怎么做的呢&＃xff1f;既然利用rotation router想一步到位计算精准的人脸偏转角度有难度&＃xff0c;那么我们渐进式地基于cascade从粗到精一步一步计算。第一层网络先初略判断一个偏转角&＃xff0c;再校准一下。第二层网络同样操作&＃xff0c;进一步校准&＃xff0c;以减少人脸偏转角度范围。第三层网络精准计算偏转角度&＃xff0c;基于前两步骤校准后&＃xff0c;再使用第三层网络直接输出人脸分类、偏转角度、bbox即可。整体下来模型耗时也少&＃xff0c;可以实时。有没有感觉到这个算法好像和MTCNN的过程超级像&＃xff1f;所以首先stage1就是对face candidates(类似mtcnn图像金字塔&＃43;滑窗)筛选candidates(face/non-face二分类)&＃xff0c;将方向朝下人脸校准为方向朝上人脸(updown clip即可)&＃xff0c;stage2与step1类似&＃xff0c;人脸筛选(face/non-face二分类)&＃43;将step1中的upright人脸进一步校准至 [-45; 45]&＃xff0c;最后stage3输出人脸分类、偏转角度(the continuouts precise RIP angle)、bbox即可。可以看到&＃xff0c;只有在stage3才做精准预测&＃xff0c;stage1、2只做±90°、±180°旋转&＃xff0c;这也保证了整个算法的时间消耗低&＃xff0c;做到了实时。 接下来作者总结了PCN的特点和优势点如下&＃xff1a;

PCN渐进式地分步校准人脸偏转角度&＃xff0c;每个小步骤都是一个基于浅层CNN的简单任务&＃xff0c;最终可以让偏转的人脸角度逐步降低并校准&＃xff0c;准确率高、效果好、耗时少。
step1、2只做粗校准(如下->上180°、左->右90°校准)&＃xff0c;优势有二&＃xff1a;1 粗校准操作耗时少&＃xff0c;易实现&＃xff1b;2 对角度的粗分类也容易实现&＃xff0c;可以直接在人脸分类、bbox回归的multi-task中加一个分支即可
在两个有挑战的数据集上-----多角度旋转的FDDB&＃43;作者手工筛选并标注的wider face test子集上(multi-oriented FDDB and a challenging subset of WIDER FACE containing rotated faces in the wild)&＃xff0c;本方案取得了不错的效果。

2. PCN详细介绍

2.1 整体介绍

PCN包括了3个阶段&＃xff0c;每个阶段都做了人脸和非人脸分类&＃xff0c;人脸bounding box的回归&＃xff0c;人脸偏转角度计算。其中stage1和stage2只做离散分类的角度估计&＃xff0c;stage3做连续回归的角度细估计&＃xff0c;对人脸方向的校准(stage1,stage2,旋转人脸180度&＃xff0c;90度等)属于后操作&＃xff0c;也就是说在校准网络结束后做&＃xff0c;使之渐进的校准为一个朝上的人人脸。如果使用一个模型预测各种旋转角度的人脸&＃xff0c;可能在精度和耗时上都有损耗&＃xff0c;所以该论文提出将校准过程分为3个渐进式步骤。在stage1和stage2上只做粗略的方向分类(离散的方向分类&＃xff0c;如180,-180&＃xff0c;90)&＃xff0c;最后stage3做连续的方向回归&＃xff0c;输出校准后的人脸偏转角度&＃xff0c;因为偏转角度已经校准到-45到45范围&＃xff0c;所以直接使用人脸检测器检测出人脸&＃xff0c;不用再接校准操作,PCN已经可以在CPU上达到实时。因为是渐进式的校准人脸角度&＃xff0c;逐渐降低人脸的练准度&＃xff0c;所以这种方法可以处理任何角度旋转的人脸。在人脸数据集FDDB和wider face test(作者自己制作的)均取得了不错的效果。

下面的Figure3展示了PCN的大致过程&＃xff1a;

Figure3 PCN的概述。PCN-1首先鉴别人脸并把朝下的人脸校准为朝上&＃xff0c;将RIP角度范围从[-180°&＃xff0c;180°]减半到[-90°&＃xff0c;90°]。旋转后的候选窗被PCN-2进一步区分并校准到[-45°&＃xff0c;45°]的直立范围&＃xff0c;并将RIP范围再缩小一半。最后PCN-3确定每个候选是否人脸并预测精确的RIP角度。

如Figure6所示&＃xff0c;PCN逐渐校准每个候选框的RIP方向使其直立以更好的区分人脸和非人脸。下面我们就分别解释一下每个Stage的细节。

PCN模型的三个阶段的详细CNN结构。 “Conv”&＃xff0c;“MP”&＃xff0c;“InnerProduct”和“ReLU”分别表示卷积层&＃xff0c;最大池化层&＃xff0c;内积层和Relu层。 &＃xff08;k×k, s&＃xff09;表示内核大小为k&＃xff0c;步幅为s。

2.2 第一个stage的PCN

对于每个滑窗输入 $x$ &＃xff0c;PCN1做三件事情&＃xff1a;face/non-face分类、bbox回归、校准&＃xff1a;

$[f; t; g] &＃61; F 1 (x)$

$F 1$ &＃xff1a;stage1的CNN模型

$f$ &＃xff1a;face confidence score&＃xff0c;用于区分face/non-face

$t$ &＃xff1a;bbox回归向量

$g$ &＃xff1a;方向得分(0~1二分类问题、输出up、down即可)

第一个损失函数&＃xff0c;区分face/non-face&＃xff1a;

$L_{cls} &＃61; ylogf &＃43; (1-y)log(1-f)$

如果 $x$ 是人脸 $y &＃61; 1$ &＃xff0c;否则 $y &＃61; 0$ 。

第二个损失函数&＃xff0c;尝试回归人脸的bounding box。

$L_{reg}(t, t^*) &＃61; S(t - t^*)$

其中 $t$ 和 $t^*$ 代表了真实的回归框和预测的回归框&＃xff0c;S代表损失距离Smooth L1 loss&＃xff0c;t和 $t^*$ 可以用回归框的左上角&＃xff0c;长宽(这里长等于宽)这3个参数来描述&＃xff0c;写成公式就是&＃xff1a;

$t_w &＃61; w^*/w$

$t_a &＃61; (a^* &＃43; 0.5w^* - a - 0.5w)/w^*$

$t_b &＃61; (b^* &＃43; 0.5w^* -b - 0.5w)/w^*$

其中 $a, b, w$ 分别代表了回归框左上角坐标 $(x, y)$ 和高宽 $w i d t h$ 。

第三个损失函数&＃xff0c;对PCN1来说&＃xff0c;就是简单的up-down二分类问题&＃xff0c;使用softmax即可。公式为&＃xff1a;

$L_{cal}(t,t^*)&＃61;ylog(g)&＃43;(1-y)log(1-g)$ 。

整个PCN1的损失函数为&＃xff1a;

PCN1的损失函数

其中 $λ\lambda$ 是各个loss的weight&＃xff01;

以上操作的意思&＃xff1a;PCN1可以类似adaboost一样&＃xff0c;第一步大量去除容易分类的fp candidates(face/non-face)&＃xff0c;再做一次bbox归回&＃xff0c;最后根据up-down分类结果&＃xff0c;对candidates做upright flip&＃xff0c;确保所有人脸bbox都是朝上&＃xff0c;经此操作&＃xff0c;人脸旋转角度变为[-90, 90]。将常用的upright人脸数据集做[-180, 180]旋转&＃xff0c;以扩充为旋转数据集。在训练阶段&＃xff0c;有3种类型的数据&＃xff1a;

pos samples&＃xff1a;iou vs gt > 0.7

neg samples&＃xff1a;iou vs gt <0.3

suspected samples&＃xff1a;iou vs gt ∈ (0.4, 0.7)

face/non-face classification&＃xff1a;pos & neg&＃xff1b;

bbox regression && calibration&＃xff1a;pos & suspected&＃xff1b;

特别地&＃xff0c;对于calibration网络&＃xff0c;pos & suspected samples&＃xff1a;

face-up&＃xff1a;RIP angles ∈ (-65, 65)

face-down&＃xff1a;RIP angles ∈ (-180, -115) & (115, 180)

不在此角度范围内的RIP angles不用于训练calibration分支。

2.3 第二个stage的PCN

这个阶段和第一个stage很类似&＃xff0c;唯一不同就是在calibration分支是一个三分类问题[-90;-45], [-45;45], or [45;90]&＃xff0c;将常用的upright人脸数据集做[-90, 90]旋转&＃xff0c;以扩充为旋转数据集。calibration&＃xff1a;pos & suspected&＃xff1b;
calibration分支分类id含义&＃xff1a;
0&＃xff1a;[-90, -60]&＃xff0c;需要&＃43;90
1&＃xff1a;[-30, 30]&＃xff0c;不用做操作
2&＃xff1a;[60, 90]&＃xff0c;-90
不在此范围内的数据&＃xff0c;不考虑用于训练。

2.4 第3个stage的PCN

经过stage1、2两波操作&＃xff0c;人脸RIP已经被校准至[-45,45]之间(calibrated to an upright quarter of RIP angle range)&＃xff0c;此时人脸已经比较容易检测&＃xff0c;使用PCN-3的网络就可以准确检测并回归人脸bbox。最终人脸角度把三个阶段的计算角度结果累加即可得到最终的旋转角度。这部分原理看图&＃xff1a;

从粗到细的级联回归方式预测RIP角度。候选窗口的RIP角度&＃xff0c;即θRIP&＃xff0c;是来自三个阶段的预测RIP角度的总和&＃xff0c;即θRIP&＃61;θ1&＃43;θ2&＃43;θ3。特别是&＃xff0c;θ1只有0°或180°两个值&＃xff0c;θ2只有三个值&＃xff0c;0°&＃xff0c;90°或-90°&＃xff0c;θ3是[-45°&＃xff0c;45°]范围内的连续值。

最终的人脸角度计算公式为&＃xff1a;

$θRIP&＃61;θ1&＃43;θ2&＃43;θ3\theta_{RIP}&＃61;\theta_1&＃43;\theta_2&＃43;\theta_3$

2.5 PCN是如何实现精度和速度提升的

在早期阶段只预测粗糙的RIP角度&＃xff0c;增强对多样性样本的鲁棒性&＃xff0c;并且有利于后续步骤。
然后通过逐步减少RIP的范围减少人脸和非人脸的分类误差&＃xff0c;从而提高了检测精度。
将难度较大的旋转角度预测分解为多个小任务&＃xff0c;每一个任务都比较简单&＃xff0c;这使得校准的整体难度降低。
在前两个阶段先用小的CNN过滤掉那些简单的负样本&＃xff0c;再用大的CNN鉴别难负样本&＃xff0c;可以大大提高提高检测速度。
基于粗糙RIP预测的校准可以通过三次翻转原始图像来有效实现&＃xff0c;这几乎不会增加额外的时间成本。具体而言&＃xff0c;将原始图像旋转-90°&＃xff0c;90°和180°以获得向左&＃xff0c;向右&＃xff0c;向下的图片&＃xff0c; 如Figure5所示&＃xff0c;0°&＃xff0c;-90°&＃xff0c;90°和180°的窗口可以分别从原始&＃xff0c;向左&＃xff0c;向右&＃xff0c;向下的图片中截取得到。

3. 结果

下面的Table1展示了在带角度的FDDB数据集上的精度和速度比较。

实验结果

下面的Figure10还展示了在Wider Face上的一些可视化结果&＃xff1a;

4. 参考

https://arxiv.org/pdf/1804.06039.pdf
https://blog.csdn.net/qq_14845119/article/details/80225036
https://zhuanlan.zhihu.com/p/36303792
官方代码链接&＃xff1a;https://github.com/MagicCharles/FaceKit/tree/master/PCN&＃xff08;里面还附带了各种版本的代码链接&＃xff0c;包括可以Arm端部署的NCNN版代码&＃xff09;

5. 上期送书获奖名单

在上期送书活动中获奖的三名读者ID如下&＃xff0c;请尽快添加GiantPandaCV小助手的微信 Lloyd6446 领取《机器学习入门基于数学原理的Python实战》正版书籍。

Jerry
昊良
张渊铭

欢迎关注GiantPandaCV, 在这里你将看到独家的深度学习分享&＃xff0c;坚持原创&＃xff0c;每天分享我们学习到的新鲜知识。( • ̀ω•́ )✧

有对文章相关的问题&＃xff0c;或者想要加入交流群&＃xff0c;欢迎添加BBuf微信&＃xff1a;

为了方便读者获取资料以及我们公众号的作者发布一些Github工程的更新&＃xff0c;我们成立了一个QQ群&＃xff0c;二维码如下&＃xff0c;感兴趣可以加入。

公众号QQ交流群

推荐阅读

int
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
const
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47
int
使用 Bokeh 在 Python 中绘制菱形标记

本文介绍了如何使用 Python 的 Bokeh 库在图表上绘制菱形标记。Bokeh 是一个强大的交互式数据可视化工具，支持丰富的图形自定义选项。 ... [详细]

蜡笔小新 2024-12-25 15:53:56
int
Python - 检查列表中是否存在交替峰值

本文介绍如何使用 Python 编写程序，检查给定列表中的元素是否形成交替峰值模式。我们将探讨两种不同的方法来实现这一目标，并提供详细的代码示例。 ... [详细]

蜡笔小新 2024-12-27 15:40:11
int
2023年全球运营商网络设备市场预计突破202亿美元

尽管某些细分市场如WAN优化表现不佳，但全球运营商路由器和交换机市场持续增长。根据最新研究，该市场预计在2023年达到202亿美元的规模。 ... [详细]

蜡笔小新 2024-12-27 12:44:44
int
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
random
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
int
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
int
Python 编程进阶：循环结构、函数与面向对象编程

本文深入探讨了 Python 中的循环结构（包括 for 循环和 while 循环）、函数定义与调用，以及面向对象编程的基础概念。通过详细解释和代码示例，帮助读者更好地理解和应用这些核心编程元素。 ... [详细]

蜡笔小新 2024-12-25 15:48:05
int
Python编程基础练习题（进阶篇）

本文提供了一系列Python编程基础练习题，涵盖了列表操作、循环结构、字符串处理和元组特性等内容。通过这些练习题，读者可以巩固对Python语言的理解并提升编程技能。 ... [详细]

蜡笔小新 2024-12-25 13:42:47
php
当unique验证运到图片上传时

2019独角兽企业重金招聘Python工程师标准model：public$imageFile;publicfunctionrules(){return[[[na ... [详细]

蜡笔小新 2024-12-20 10:19:12
filter
MySQL中的Anemometer使用指南

本文详细介绍了如何在MySQL环境中部署和使用Anemometer，以帮助开发者有效监控和优化慢查询性能。通过本文，您将了解从环境准备到具体配置的全过程。 ... [详细]

蜡笔小新 2024-12-11 16:16:39
php
Prototype.js 与 toString() 方法的区别

本文深入探讨了 Prototype.js 框架及其与 JavaScript 原生 toString() 方法之间的区别，适合对前端开发感兴趣的开发者阅读。文章将帮助读者理解两者在功能实现和应用场景上的不同，从而更好地利用这些工具进行高效编程。 ... [详细]

蜡笔小新 2024-12-11 10:28:59
list
优化 DropDownList 与 TextBox 的交互体验

本文介绍了一种解决方案，通过在 DropDownList 前添加一个 TextBox 来提升用户体验。当选项过多时，用户可以通过在 TextBox 中输入关键词来快速定位并选择相应的选项。 ... [详细]

蜡笔小新 2024-12-10 11:18:42
int
数字图像处理与机器视觉随书代码在VS2012中编译报错的解决办法转载

https:www.jianshu.comp2d376a82ba8c?utm_campaignmaleskine&utm_contentnote&utm_mediumseo_not ... [详细]

蜡笔小新 2024-12-09 17:13:45

手机用户2602936797

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章