作者:muc4093631 | 来源:互联网 | 2023-08-13 08:29
人脸识别数据集 数据集的noise对训练效果的影响很大!很长一段时间MegaFace的效果都上不去,就是因为数据集噪声的原因。而且自己在训练人脸的时候,如果不对数据集的噪声和属性有一点了解,对训练结果可能会有误判,甚至越训练越差…在选择数据集的时候不要一味求大,有的时候选择一个noise比例极高的大数据集,效果还不如选择一个clean的小数据集呢,可以参见这篇论文The Devil of Face Recognition is in the Noise
LFW 全名是Labeled Faces in the Wild.这个数据集是人脸评估一定会用到的一个数据集,包含了来自1680的13000张人脸图,数据是从网上搜索来的。基本都是正脸。这个数据集也是最简单的,基本主流算法都能跑到99%以上,貌似有6对label错了,所以最高正确率应该是99.9%左右。这个都跑不到99%的话别的数据集表现效果会更差。一般来说这个数据集是用来做人脸识别验证的。
CelebFaces 总共包含10177个人的202599张图片,也是从搜索引擎上爬过来的,噪声不算多,适合作为训练集。同时这个数据对人脸有一些二元标签,比如是否微笑,是否戴帽子等。如果需要特定属性的人脸,也可以从中获取。 40个属性如下(引用自芯尚刃:CelebA数据集详细介绍及其属性提取源代码 ): 5_o_Clock_Shadow:刚长出的双颊胡须,Arched_Eyebrows:柳叶眉, Attractive:吸引人的, Bags_Under_Eyes:眼袋, Bald:秃头,Bangs:刘海,Big_Lips:大嘴唇,Big_Nose:大鼻子,Black_Hair:黑发,Blond_Hair:金发,Blurry:模糊的,Brown_Hair:棕发,Bushy_Eyebrows:浓眉,Chubby:圆胖的,Double_Chin:双下巴,Eyeglasses:眼镜,Goatee:山羊胡子,Gray_Hair:灰发或白发,Heavy_Makeup:浓妆,High_Cheekbones:高颧骨,Male:男性,Mouth_Slightly_Open:微微张开嘴巴,Mustache:胡子,髭,Narrow_Eyes:细长的眼睛,No_Beard:无胡子,Oval_Face:椭圆形的脸,Pale_Skin:苍白的皮肤,Pointy_Nose:尖鼻子,Receding_Hairline:发际线后移,Rosy_Cheeks:红润的双颊,Sideburns:连鬓胡子,Smiling:微笑,Straight_Hair:直发,Wavy_Hair:卷发,Wearing_Earrings:戴着耳环,Wearing_Hat:戴着帽子,Wearing_Lipstick:涂了唇膏,Wearing_Necklace:戴着项链,Wearing_Necktie:戴着领带,Young:年轻人 这些标签的属性在下载文件中的list_attr_celeba.txt中,在使用的时候,由于它不每一列都分开的,而是所有属性按一列来读取,所以在使用的时候,注意使用line.split()进行切分。(不是line.split(" "),因为每个属性不全都是按一个空格隔开的,有的时候是用两个空格隔开的)
CFP 这个数据集由500个identity的约共7000张图片组成,这个数据集的特别之处在于对于每个人,它有10张正面图像和4张侧面图像,这对于想要做侧脸识别的同学还是很有帮助的。
VGG-Face 来自2622个人的2百万张图片。每个人大概要2000+图片,跟MS-Celeb-1M有很多重叠的地方(因为都是从搜索引擎来的),这个数据集经常作为训练模型的数据,噪声比较小,相对来说能训练出比较好的结果.
CASIA-WebFace 该数据集是从IMBb网站上搜集来的,含10K个人的500K张图片。同时做了相似度聚类来去掉一部分噪声。CAISA-WebFace的数据集源和IMDb-Face是一样的,不过因为数据清洗的原因,会比IMDb-Face少一些图片。噪声不算特别多,适合作为训练数据。(1万人)
MS-Celeb-1M 100K人的共100M图片,来自搜索引擎。这个数据集非常大,没有清洗过,噪声很大,很难。用未经过清洗的MS-Celeb-1M训练google facenet和Insightface的accuracy都比较低。(10万人) (然而没有被请洗过的MS1M数据集噪声太大,所以其实更推荐使用iBUG清洗过的数据集(以下链接来自insightface团队)ms1m)
MegaFace 672K人的4.7M张图片,做过一些清洗,不过依然有噪声,不同人的图片可能混到了一起。相比来说噪声可能比MS-Celeb-1M小一点,但还是挺大的…这个数据集是由两个数据集组合而来:Facescrub和FGNet,所以如果你要使用多个数据集,注意有没有重合哦!
各个数据集的scale和噪声比例见下图(来自论文the devil of face recognition is in the Noise)。这篇论文也有提到清洗数据的噪声能够有效提升训练表现,所以大家自己在做人脸相关的检测时也要心中有数,除了可以优化算法,优化数据集也是一种方向。
CPLFW cross pose LFW
CALFW cross age LFW
人脸识别的LOSS 函数 请参考这个知乎写的挺好的 https://zhuanlan.zhihu.com/p/101059838
参考: 人脸识别常用数据集