当前位置: 开发笔记 > 编程语言 > 正文

使用Keras和CNN进行自定义AI人脸识别

作者：mobiledu2502852923 | 来源：互联网 | 2023-09-11 17:22

目录介绍什么是CNN？设计CNN实现CNN训练CNN下一步？下载源8.4KB介绍如果您看过《少数派报告》电影，您可能还记得

介绍

什么是CNN&＃xff1f;

设计CNN

实现CNN

训练CNN

下一步&＃xff1f;

下载源8.4 KB

介绍

如果您看过《少数派报告》电影&＃xff0c;您可能还记得汤姆·克鲁斯&＃xff08;Tom Cruise&＃xff09;走进一家Gap商店的场景。视网膜扫描仪读取他的眼睛&＃xff0c;并为他播放定制的广告。好吧&＃xff0c;这是2020年。我们不需要视网膜扫描仪&＃xff0c;因为我们拥有人工智能&＃xff08;AI&＃xff09;和机器学习&＃xff08;ML&＃xff09;&＃xff01;

在本系列中&＃xff0c;我们将向您展示如何使用深度学习进行面部识别&＃xff0c;然后基于被识别的面部&＃xff0c;使用神经网络语音合成&＃xff08;TTS&＃xff09;引擎播放自定义广告。

我们假设您熟悉AI/ML的基本概念&＃xff0c;并且可以找到使用Python的方法。

在本文中&＃xff0c;我们将讨论CNN&＃xff0c;然后设计一个并使用Keras在Python中实现它。

什么是CNN&＃xff1f;

CNN是一种神经网络&＃xff08;NN&＃xff09;&＃xff0c;通常用于图像分类任务&＃xff08;例如人脸识别&＃xff09;以及任何其他输入具有网格状拓扑的问题。在CNN中&＃xff0c;并非每个节点都连接到下一层的所有节点。换句话说&＃xff0c;它们不是完全连接的NN。这有助于防止完全连接的NN中出现过拟合问题&＃xff0c;更不用说由NN中的过多连接导致的超慢收敛。

CNN的概念依赖于称为卷积的数学运算&＃xff0c;这在数字信号处理领域非常普遍。卷积被定义为两个函数&＃xff08;第三个函数&＃xff09;的乘积&＃xff0c;表示前两个函数之间的重叠量。在CNN区域&＃xff0c;通过在图像中滑动过滤器&＃xff08;即内核&＃xff09;来实现卷积。

在人脸识别中&＃xff0c;卷积操作使我们能够检测图像中的不同特征。不同的过滤器可以检测垂直和水平边缘、纹理、曲线和其他图像特征。这就是为什么任何CNN中的第一层都是卷积层的原因。

CNN中另一个常见的层是池化层。池化用于减小图像表示的大小&＃xff0c;这意味着减少了参数数量&＃xff0c;并最终减少了计算量。最常见的池化类型是“max”&＃xff0c;它使用滑动窗口&＃xff08;类似于卷积操作中的窗口&＃xff09;在每个位置从匹配的单元格组中获取最大值。最后&＃xff0c;它根据收获的最大值构建图像的新表示形式。

最常见的CNN架构通常从卷积层开始&＃xff0c;然后是激活层&＃xff0c;然后是池化层&＃xff0c;最后以传统的全连接网络&＃xff08;例如多层NN&＃xff09;结束。这种层次化的模型称为顺序模型。为什么最后要建立全连接网络&＃xff1f;要学习变换图像中特征的非线性组合&＃xff08;在卷积和合并之后&＃xff09;。

设计CNN

这是我们将在CNN中实现的架构&＃xff1a;

输入层——NumPy数组&＃xff08;img_width&＃xff0c;img_height&＃xff0c;1&＃xff09;&＃xff1b;“ 1” 因为我们正在处理灰度图像&＃xff1b;对于RGB图像&＃xff0c;应该是&＃xff08;img_width&＃xff0c;img_height&＃xff0c;3&＃xff09;
Conv2D层——32个过滤器&＃xff0c;过滤器大小为3
激活层——必须使用非线性函数进行学习&＃xff0c;在这种情况下&＃xff0c;该函数为ReLU
Conv2D层——32个过滤器&＃xff0c;过滤器大小为3&＃xff0c;步幅为3
使用ReLU功能的激活层
MaxPooling2D层——应用&＃xff08;2&＃xff0c;2&＃xff09;合并窗口
25&＃xff05;的DropOut层——通过从前一层中随机删除一些值&＃xff08;将它们设置为0&＃xff09;来防止过度拟合&＃xff1b;又名稀释技术
Conv2D层——64个过滤器&＃xff0c;过滤器大小为3
使用ReLU功能的激活层
Conv2D层——64个过滤器&＃xff0c;过滤器大小为3&＃xff0c;步幅为3
使用ReLU功能的激活层
MaxPooling2D层——应用&＃xff08;2&＃xff0c;2&＃xff09;合并窗口
DropOut层&＃xff0c;占25&＃xff05;
展平层——转换要在下一层使用的数据
致密层——代表完全连接的传统NN
使用ReLU功能的激活层
DropOut层&＃xff0c;占25&＃xff05;
密集层&＃xff0c;节点数与问题中的类数匹配——Yale数据集为15
使用ReLU功能的激活层

上面的架构很常见&＃xff1b;层参数已通过实验进行了微调。

实现CNN

现在&＃xff0c;让我们在代码中实现我们的CNN架构-我们选择的一组图层。为了创建易于扩展的解决方案&＃xff0c;我们将ML模型与一组抽象方法结合使用&＃xff1a;

class MLModel(metaclass&＃61;abc.ABCMeta):def __init__(self, dataSet&＃61;None):if dataSet is not None:self.objects &＃61; dataSet.objectsself.labels &＃61; dataSet.labelsself.obj_validation &＃61; dataSet.obj_validationself.labels_validation &＃61; dataSet.labels_validationself.number_labels &＃61; dataSet.number_labelsself.n_classes &＃61; dataSet.n_classesself.init_model()&＃64;abstractmethoddef init_model(self):pass&＃64;abstractmethoddef train(self):pass&＃64;abstractmethoddef predict(self, object):pass&＃64;abstractmethoddef evaluate(self):score &＃61; self.get_model().evaluate(self.obj_validation, self.labels_validation, verbose&＃61;0)print("%s: %.2f%%" % (self.get_model().metrics_names[1], score[1] * 100))&＃64;abstractmethoddef get_model(self):pass

在我们的例子中&＃xff0c;dataset是本系列上一篇文章中描述的FaceDataSet类的实例。ConvolutionalModel类&＃xff0c;它从MLModel中继承和实现其所有的抽象方法&＃xff0c;是一个将包含我们的CNN架构的类。这里是&＃xff1a;

class ConvolutionalModel(MLModel):def __init__(self, dataSet&＃61;None):if dataSet is None:raise Exception("DataSet is required in this model")self.shape &＃61; numpy.array([constant.IMG_WIDTH, constant.IMG_HEIGHT, 1])super().__init__(dataSet)self.cnn.compile(loss&＃61;constant.LOSS_FUNCTION,optimizer&＃61;Common.get_sgd_optimizer(),metrics&＃61;[constant.METRIC_ACCURACY])def init_model(self):self.cnn &＃61; Sequential()self.cnn.add(Convolution2D(32, 3, padding&＃61;constant.PADDING_SAME, input_shape&＃61;self.shape))self.cnn.add(Activation(constant.RELU_ACTIVATION_FUNCTION))self.cnn.add(Convolution2D(32, 3, 3))self.cnn.add(Activation(constant.RELU_ACTIVATION_FUNCTION))self.cnn.add(MaxPooling2D(pool_size&＃61;(2, 2)))self.cnn.add(Dropout(constant.DROP_OUT_O_25))self.cnn.add(Convolution2D(64, 3, padding&＃61;constant.PADDING_SAME))self.cnn.add(Activation(constant.RELU_ACTIVATION_FUNCTION))self.cnn.add(Convolution2D(64, 3, 3))self.cnn.add(Activation(constant.RELU_ACTIVATION_FUNCTION))self.cnn.add(MaxPooling2D(pool_size&＃61;(2, 2)))self.cnn.add(Dropout(constant.DROP_OUT_O_25))self.cnn.add(Flatten())self.cnn.add(Dense(constant.NUMBER_FULLY_CONNECTED))self.cnn.add(Activation(constant.RELU_ACTIVATION_FUNCTION))self.cnn.add(Dropout(constant.DROP_OUT_0_50))self.cnn.add(Dense(self.n_classes))self.cnn.add(Activation(constant.SOFTMAX_ACTIVATION_FUNCTION))self.cnn.summary()def train(self, n_epochs&＃61;20, batch&＃61;32):self.cnn.fit(self.objects, self.labels,batch_size&＃61;batch,epochs&＃61;n_epochs, shuffle&＃61;True)def get_model(self):return self.cnndef predict(self, image):image &＃61; Common.to_float(image)result &＃61; self.cnn.predict(image)print(result)def evaluate(self):super(ConvolutionalModel, self).evaluate()

在构造函数中&＃xff0c;我们设置self.shape变量&＃xff0c;该变量定义输入层的形状。在我们的例子中&＃xff0c;对于Yale数据集&＃xff0c;图像高度为320像素&＃xff0c;宽度为243像素&＃xff0c;self.shape &＃61;(320, 243, 1)。

然后&＃xff0c;我们调用super()从父构造函数获取所有与数据集相关的变量集&＃xff0c;并调用init_model()初始化模型的方法。

最后&＃xff0c;我们调用compile方法&＃xff0c;该方法配置用于训练的模型并设置要在loss参数中使用的目标函数。在训练过程中&＃xff0c;目标功能得到了优化&＃xff08;最小化或最大化&＃xff09;。accuracy参数定义在训练中评估模型的度量。optimizer参数定义权重的计算方式。最常见的优化器是“梯度下降”。

我们的CNN模型定义为顺序的&＃xff0c;并根据体系结构的要求添加所有层。train()方法使用表示层排列的sequential类的fit方法来训练CNN。此方法接收训练CNN的数据作为输入&＃xff0c;该数据的正确分类以及一些可选参数&＃xff0c;例如要运行的时期数。

训练CNN

现在&＃xff0c;代码已经准备就绪&＃xff0c;该开始训练我们的CNN了。让我们实例化ConvolutionalModel类&＃xff0c;在Yale数据集上进行训练&＃xff0c;然后调用评估方法。

cnn &＃61; ConvolutionalModel(dataSet) cnn.train(n_epochs&＃61;50) cnn.evaluate()

在进行了50个时期的训练后&＃xff0c;我们在测试图像上的准确性达到了近85&＃xff05;。

这意味着我们的CNN现在将以85&＃xff05;的概率识别出数据集中15个主题中的每个主题。简短的练习还不错吧&＃xff1f;

现在&＃xff0c;我们已经训练了CNN&＃xff0c;如果我们想预测新的传入数据&＃xff08;意味着来自图像的新面孔&＃xff09;&＃xff0c;则可以使用之前详细介绍的ConvolutionalModel类中的predict&＃xff08;image&＃xff09;方法来进行。如何运作&＃xff1f;该调用看起来像下一个调用&＃xff0c;它应符合某些假设。

cnn.predict(np.expand_dims(image, axis&＃61;0))

首先&＃xff0c;输入图像必须具有与先前训练的CNN输入层相同的尺寸或形状。其次&＃xff0c;在我们归一化数据的predict()方法中&＃xff0c;它应该是相同类型的输入&＃xff0c;即像素值矩阵&＃xff0c;因此无需提供归一化的图像像素矩阵。第三&＃xff0c;我们可能需要为输入的面部图像添加一个维度&＃xff0c;因为在经过训练的CNN中&＃xff0c;我们考虑了数据集中样本数量的第4个维度。这可以使用numpy的expand_dims()方法来实现。第四&＃xff0c;假定将提供面部图像&＃xff0c;在较大图片的情况下&＃xff0c;先前文章中提供的面部检测方法可证明是有用的。

最后&＃xff0c;predict()方法的输出可以在上图中看到。此方法将输出脸部属于每个可能类别或个人的概率&＃xff08;对于训练后的数据集为15&＃xff09;。在这种情况下&＃xff0c;我们可以看到类别4的可能性最高&＃xff0c;这正是输入的面部图像所指的类别或人物。

下一步&＃xff1f;

现在我们知道了如何从头开始构建自己的CNN。在下一篇文章中&＃xff0c;我们将研究一种替代方法——利用预先训练的模型。我们将使用一个经过训练的CNN来对具有数百万个图像的数据集进行人脸识别训练&＃xff0c;并对其进行调整以解决我们的问题。敬请关注&＃xff01;

推荐阅读

object
Python函数的高级用法[python基础]

Python的函数也是一种值：所有函数都是function对象，这意味着可以把函数本身赋值给变量，就像把整数、浮点数、列表、元组赋值给变量一样；同样可以使用函数作为函数的形参，也可 ... [详细]

蜡笔小新 2024-11-15 20:36:09
io
使用Tkinter构建51Ape无损音乐爬虫UI

本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面，用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单，但在实际开发过程中由于文档不足可能会带来一些不便。 ... [详细]

蜡笔小新 2024-11-15 10:31:11
io
周排行与月排行榜开发总结

本文详细介绍了如何在PHP中实现周排行和月排行榜的开发，包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ... [详细]

蜡笔小新 2024-11-14 19:14:58
io
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
io
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
io
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
io
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
io
如何在Webpack项目中集成ECharts

本文将详细介绍如何在Webpack项目中安装和使用ECharts，包括全量引入和按需引入的方法，并提供一个柱状图的示例。 ... [详细]

蜡笔小新 2024-11-12 09:49:07
byte
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
io
深入解析Java中的空指针异常及其预防策略

空指针异常（NullPointerException，简称NPE）是Java编程中最常见的异常之一。尽管其成因显而易见，但开发人员往往容易忽视或未能及时采取措施。本文将详细介绍如何有效避免空指针异常，帮助开发者提升代码质量。 ... [详细]

蜡笔小新 2024-11-15 15:04:40
io
嵌入式Linux工程师笔试题精选

本文整理了一份基础的嵌入式Linux工程师笔试题，涵盖填空题、编程题和简答题，旨在帮助考生更好地准备考试。 ... [详细]

蜡笔小新 2024-11-15 10:42:13
io
【数据结构】线段数/segment tree/interval tree

【线段树】　　本质是二叉树，每个节点表示一个区间[L,R]，设m(R-L+1)2(该处结果向下取整)左孩子区间为[L，m]，右孩子区间为[m ... [详细]

蜡笔小新 2024-11-14 23:11:47
io
Java 并发编程：RunnableScheduledFuture 接口详解

本文深入解析了 Java 并发编程中 RunnableScheduledFuture 接口的源代码及其在标准线程池中的应用。 ... [详细]

蜡笔小新 2024-11-14 12:00:59
io
数据结构第三章，栈、队列、数组，期末不挂科指南，第3篇

数据结构第三章，栈、队列、数组，期末不挂科指南，第3篇,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-13 18:49:58
utf-8
利用REM实现移动端布局的高效适配技巧

在移动设备上实现高效布局适配时，使用rem单位已成为一种流行且有效的技术。本文将分享过去一年中使用rem进行布局适配的经验和心得。rem作为一种相对单位，能够根据根元素的字体大小动态调整，从而确保不同屏幕尺寸下的布局一致性。通过合理设置根元素的字体大小，开发者可以轻松实现响应式设计，提高用户体验。此外，文章还将探讨一些常见的问题和解决方案，帮助开发者更好地掌握这一技术。 ... [详细]

蜡笔小新 2024-11-11 19:11:53

mobiledu2502852923

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章