人脸识别常用数据集和Loss

作者：muc4093631 | 来源：互联网 | 2023-08-13 08:29

人脸识别数据集数据集的noise对训练效果的影响很大！很长一段时间MegaFace的效果都上不去，就是因为数据集噪声的原因。而且自己在训练人脸的时候&

人脸识别数据集

数据集的noise对训练效果的影响很大！很长一段时间MegaFace的效果都上不去，就是因为数据集噪声的原因。而且自己在训练人脸的时候，如果不对数据集的噪声和属性有一点了解，对训练结果可能会有误判，甚至越训练越差…在选择数据集的时候不要一味求大，有的时候选择一个noise比例极高的大数据集，效果还不如选择一个clean的小数据集呢，可以参见这篇论文The Devil of Face Recognition is in the Noise

LFW

全名是Labeled Faces in the Wild.这个数据集是人脸评估一定会用到的一个数据集，包含了来自1680的13000张人脸图，数据是从网上搜索来的。基本都是正脸。这个数据集也是最简单的，基本主流算法都能跑到99%以上，貌似有6对label错了，所以最高正确率应该是99.9%左右。这个都跑不到99%的话别的数据集表现效果会更差。一般来说这个数据集是用来做人脸识别验证的。

CelebFaces

总共包含10177个人的202599张图片，也是从搜索引擎上爬过来的,噪声不算多，适合作为训练集。同时这个数据对人脸有一些二元标签，比如是否微笑，是否戴帽子等。如果需要特定属性的人脸，也可以从中获取。
40个属性如下（引用自芯尚刃：CelebA数据集详细介绍及其属性提取源代码）：
5_o_Clock_Shadow：刚长出的双颊胡须，Arched_Eyebrows：柳叶眉， Attractive：吸引人的， Bags_Under_Eyes：眼袋， Bald：秃头，Bangs：刘海，Big_Lips：大嘴唇，Big_Nose：大鼻子，Black_Hair：黑发，Blond_Hair：金发，Blurry：模糊的，Brown_Hair：棕发，Bushy_Eyebrows：浓眉，Chubby：圆胖的，Double_Chin：双下巴，Eyeglasses：眼镜，Goatee：山羊胡子，Gray_Hair：灰发或白发，Heavy_Makeup：浓妆，High_Cheekbones：高颧骨，Male：男性，Mouth_Slightly_Open：微微张开嘴巴，Mustache：胡子，髭，Narrow_Eyes：细长的眼睛，No_Beard：无胡子，Oval_Face：椭圆形的脸，Pale_Skin：苍白的皮肤，Pointy_Nose：尖鼻子，Receding_Hairline：发际线后移，Rosy_Cheeks：红润的双颊，Sideburns：连鬓胡子，Smiling：微笑，Straight_Hair：直发，Wavy_Hair：卷发，Wearing_Earrings：戴着耳环，Wearing_Hat：戴着帽子，Wearing_Lipstick：涂了唇膏，Wearing_Necklace：戴着项链，Wearing_Necktie：戴着领带，Young：年轻人
这些标签的属性在下载文件中的list_attr_celeba.txt中,在使用的时候，由于它不每一列都分开的，而是所有属性按一列来读取，所以在使用的时候，注意使用line.split()进行切分。（不是line.split(" "）,因为每个属性不全都是按一个空格隔开的，有的时候是用两个空格隔开的）

CFP

这个数据集由500个identity的约共7000张图片组成，这个数据集的特别之处在于对于每个人，它有10张正面图像和4张侧面图像，这对于想要做侧脸识别的同学还是很有帮助的。

VGG-Face

来自2622个人的2百万张图片。每个人大概要2000+图片，跟MS-Celeb-1M有很多重叠的地方（因为都是从搜索引擎来的），这个数据集经常作为训练模型的数据，噪声比较小，相对来说能训练出比较好的结果.

CASIA-WebFace

该数据集是从IMBb网站上搜集来的，含10K个人的500K张图片。同时做了相似度聚类来去掉一部分噪声。CAISA-WebFace的数据集源和IMDb-Face是一样的，不过因为数据清洗的原因，会比IMDb-Face少一些图片。噪声不算特别多，适合作为训练数据。(1万人)

MS-Celeb-1M

100K人的共100M图片，来自搜索引擎。这个数据集非常大，没有清洗过，噪声很大，很难。用未经过清洗的MS-Celeb-1M训练google facenet和Insightface的accuracy都比较低。(10万人)
（然而没有被请洗过的MS1M数据集噪声太大，所以其实更推荐使用iBUG清洗过的数据集（以下链接来自insightface团队）ms1m）

MegaFace

672K人的4.7M张图片，做过一些清洗，不过依然有噪声，不同人的图片可能混到了一起。相比来说噪声可能比MS-Celeb-1M小一点，但还是挺大的…这个数据集是由两个数据集组合而来：Facescrub和FGNet，所以如果你要使用多个数据集，注意有没有重合哦！

各个数据集的scale和噪声比例见下图（来自论文the devil of face recognition is in the Noise）。这篇论文也有提到清洗数据的噪声能够有效提升训练表现，所以大家自己在做人脸相关的检测时也要心中有数，除了可以优化算法，优化数据集也是一种方向。

CPLFW

cross pose LFW
在这里插入图片描述

CALFW

cross age LFW
在这里插入图片描述

人脸识别的LOSS 函数

请参考这个知乎写的挺好的 https://zhuanlan.zhihu.com/p/101059838

参考：人脸识别常用数据集

推荐阅读

java
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
python3
Python 3 Scrapy 框架执行流程详解

本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架，包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架，适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]

蜡笔小新 2024-11-12 10:51:15
java
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
java
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
search
EST：西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...

点击蓝字关注我们编译：祝新宇校稿：鞠峰、袁凌论文ID原名：PathogenicandIndigenousDenitrifyingBacte ... [详细]

蜡笔小新 2024-11-13 21:09:41
java
如何使用KindEditor网页编辑器

本文详细介绍了如何在项目中引入和配置KindEditor网页编辑器，包括脚本引用、初始化编辑器以及文件上传功能的实现。 ... [详细]

蜡笔小新 2024-11-14 09:36:22
java
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
config
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
config
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56
java
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
java
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
import
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
const
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
export
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
client
利用Python Paramiko库批量更新多台服务器的登录密码

本文介绍了如何使用Python的Paramiko库批量更新多台服务器的登录密码。通过示例代码展示了具体实现方法，确保了操作的高效性和安全性。Paramiko库提供了强大的SSH2协议支持，使得远程服务器管理变得更加便捷。此外，文章还详细说明了代码的各个部分，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 19:17:23

muc4093631

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章