深度学习之卷积神经网络(ConvolutionalNeuralNetworks,CNN)

作者：JKNx2602931435 | 来源：互联网 | 2023-08-06 11:24

前面,我们介绍了DNN及其参数求解的方法(BP算法),我们知道了DNN仍然存在很多的问题,其中最主要的就是BP求解可能造成的梯度消失和梯度爆炸的问题.那么,人们又是怎么解决这个问题

前面, 我们介绍了DNN及其参数求解的方法(BP算法),我们知道了DNN仍然存在很多的问题,其中最主要的就是BP求解可能造成的梯度消失和梯度爆炸的问题.那么,人们又是怎么解决这个问题的呢?本节的卷积神经网络(Convolutional Neural Networks, CNN)就是一种解决方法.

我们知道神经网络主要有三个部分组成, 分别为:

网络结构--- 描述神经元的层次与连接神经元的结构.

**函数(激励函数)--- 用于加入非线性的因素, 解决线性模型所不能解决的问题.

参数学习方法的选择(一般为权重值W和偏置项b)---如BP算法等.

我们将主要从这几个方面进行讲述.

一 CNN的应用领域

CNN在以下几个领域均有不同程度的应用:

图像处理领域(最主要运用领域)--- 图像识别和物体识别，图像标注，图像主题生成，图像内容生成，物体标注等。

视频处理领域--- 视频分类，视频标准，视频预测等

自然语言处理(NLP)领域--- 对话生成，文本生成，机器翻译等

其它方面--- 机器人控制，游戏，参数控制等

二 CNN的网络结构

2.1 传统神经网络

上图为传统的神经网络的结构, 它是一种全连接的结构, 这也就造成了参数训练的难度加深. 还有BP求解中的可能出现的梯度爆炸和梯度消失的现象等.此外,深度结构（涉及多个非线性处理单元层）非凸目标代价函数中普遍存在的局部最小是训练困难的主要来源. 这些因素都造成了传统的神经网络的不适用性,所以没有较为广泛的运用.

2.2 CNN神经网络

上图为CNN的网络结构，卷积神经网络(Convolutional Neural Networks，CNN)，CNN可以有效的降低反馈神经网络(传统神经网络)的复杂性，常见的CNN结构有LeNet-5、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet等等，其中在LVSVRC2015冠军ResNet是AlexNet的20多倍，是VGGNet的8倍；从这些结构来讲CNN发展的一个方向就是层次的增加，通过这种方式可以利用增加的非线性得出目标函数的近似结构，同时得出更好的特征表达，但是这种方式导致了网络整体复杂性的增加，使网络更加难以优化，很容易过拟合。

CNN的网络结构和传统神经网络结构异同点有:

CNN主要有数据输入层, 卷积层, RELU激励层, 池化层, 全连接层, Batch Normalization Layer(不一定存在). 传统神经网络主要有数据输入层, 一个或多个隐层以及数据输出层. 比较可以发现CNN仍然使用传统神经网络的层级结构.

CNN的每一层都具有不同的功能, 而传统神经网络每一层都是对上一层特征进行线性回归, 再进行非线性变换的操作.

CNN使用RELU作为**函数(激励函数) , 传统神经网络使用sigmoid函数作为**函数.

CNN的池化层实现数据降维的作用,提取数据的高频信息.传统神经网络没有这个作用.

CNN的主要层次介绍

数据输入层：Input Layer

卷积计算层：CONV Layer

ReLU激励层：ReLU Incentive Layer

池化层：Pooling Layer

全连接层：FC Layer

备注：Batch Normalization Layer（可能有）

2.2.1 数据输入层 (Input Layer)

和神经网络/机器学习一样，需要对输入的数据需要进行预处理操作，需要进行预处理的主要原因是：

输入数据单位不一样，可能会导致神经网络收敛速度慢，训练时间长

数据范围大的输入在模式分类中的作用可能偏大，而数据范围小的作用就有可能偏小

由于神经网络中存在的**函数是有值域限制的，因此需要将网络训练的目标数据映射到**函数的值域

S形**函数在(0,1)区间以外区域很平缓，区分度太小。例如S形函数f(X)，f(100)与f(5)只相差0.0067

常见的数据预处理的方式有以下几种:

均值化处理 --- 即对于给定数据的每个特征减去该特征的均值(将数据集的数据中心化到0)

归一化操作 --- 在均值化的基础上再除以该特征的方差(将数据集各个维度的幅度归一化到同样的范围内)

PCA降维 --- 将高维数据集投影到低维的坐标轴上, 并要求投影后的数据集具有最大的方差.(去除了特征之间的相关性,用于获取低频信息)

白化 --- 在PCA的基础上, 对转换后的数据每个特征轴上的幅度进行归一化.用于获取高频信息.

http://ufldl.stanford.edu/wiki/index.php/白化

x = x - np.mean(x, 0) x = (x - np.mean(x, 0)) / np.std(x, 0)

x -= np.mean(x, axis=0) # 去均值

cov = np.dot(x.T, x) / x.shape[0] # 计算协方差

u, s, v = np.linalg.svd(cov) # 进行 svd 分解

xrot = np.dot(x, u)

x = np.dot(x, u[:, :2]) # 计算 pca

x = xrot / np.sqrt(s + 1e-5) # 白化

备注：虽然我们介绍了PCA去相关和白化的操作，但是实际上在卷积神经网络中，一般并不会适用PCA和白化的操作，一般去均值和归一化使用的会比较多.

建议：对数据特征进行预处理，去均值、归一化

2.2.2 卷积计算层(CONV Layer)

这一层就是卷积神经网络最重要的一层，也是“卷积神经网络”的名字由来。

人的大脑在识别图片的过程中，会由不同的皮质层处理不同方面的数据，比如：颜色、形状、光暗等，然后将不同皮质层的处理结果进行合并映射操作，得出最终的结果值，第一部分实质上是一个局部的观察结果，第二部分才是一个整体的结果合并.

还有，对于给定的一张图片, 人眼总是习惯性的先关注那些重要的点(局部), 再到全局. 局部感知是将整个图片分为多个可以有局部重叠的小窗口, 通过滑窗的方法进行图像的局部特征的识别. 也可以说每个神经元只与上一层的部分神经元相连, 只感知局部, 而不是整幅图像.

基于人脑的图片识别过程，我们可以认为图像的空间联系也是局部的像素联系比较紧密，而较远的像素相关性比较弱，所以每个神经元没有必要对全局图像进行感知，只要对局部进行感知，而在更高层次对局部的信息进行综合操作得出全局信息；即局部感知

局部关联：每个神经元看做一个filter

窗口(receptive field)滑动，filter对局部数据进行计算

相关概念：深度：depth，步长：stride，填充值：zero-padding

CONV过程参考：http://cs231n.github.io/assets/conv-demo/index.html

一个数据输入，假设为一个RGB的图片

在神经网络中，输入是一个向量，但是在卷积神经网络中，输入是一个多通道图像(比如这个例子中有3个通道)

1) 局部感知

在进行计算的时候，将图片划分为一个个的区域进行计算/考虑；

那么,为什么可以使用局部感知呢?

我们发现, 越是接近的像素点之间的关联性越强, 反之则越弱. 所以我们选择先进行局部感知, 然后在更高层(FC层)将这些局部信息综合起来得到全局信息的方式.

2) 参数共享机制

所谓的参数共享就是就是同一个神经元使用一个固定的卷积核去卷积整个图像,也可以认为一个神经元只关注一个特征. 而不同的神经元关注多个不同的特征.(每一个神经元都可以看作一个filter)

3) 滑动窗口的重叠

滑动窗口重叠就是在进行滑窗的过程中对于相邻的窗口有局部重叠的部分,这主要是为了保证图像处理后的各个窗口之间的边缘的平滑度。降低窗口与窗口之间的边缘不平滑的特性。

固定每个神经元的连接权重，可以将神经元看成一个模板；也就是每个神经元只关注一个特性

需要计算的权重个数会大大的减少

4)) 卷积计算

卷积的计算就是: 对于每一个神经元的固定的卷积核矩阵与窗口矩阵的乘积(对应位置相乘)再求和之后再加上偏置项b的值, 就得到了代表该神经元所关注的特征在当前图像窗口的值.

如图2.4所示, 可以看出卷积计算的过程.动态图点击这里查看.

2.2.3 RELU激励层

这一层就是**层, 在CNN中一般使用RELU函数作为**函数.它的作用主要是将卷积层的输出结果做非线性映射.

1) 常见的几种**函数

**函数之 Sigmoid、tanh、ReLU、ReLU变形和Maxout

sigmoid函数(S函数)

Tanh函数(2S函数)

RELU函数 ----> 线性修正单元 ---> max{ 0, x } ==>无边界, 易出现'死神经元'

Leaky ReLU 函数 ---> 若x> 0 , 则输出x ; 若x<0,则 alpha*x, 其中 0 对RELU的改进

ELU 函数 ---> 若x> 0 , 则输出x ; 若x<0,则 alpha*(e^x - 1), 其中 0 也是一种对RELU的改进

Maxout函数 ---> 相当于增加了一个**层

2) **函数的一些建议

一般不要使用sigmoid函数作为CNN的**函数.如果用可以在FC层使用.

优先选择RELU作为**函数，因为迭代速度快，但是有可能效果不佳

如果2失效，请用Leaky ReLU或者Maxout，此时一般情况都可以解决啦

在极少的情况下, tanh也是有不错的效果的

2.2.4 池化层 (Poling Layer)

在连续的卷积层中间存在的就是池化层，主要功能是：通过逐步减小表征的空间尺寸来减小参数量和网络中的计算；池化层在每个特征图上独立操作。使用池化层可以压缩数据和参数的量，减小过拟合。简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。

池化层中的数据压缩的策略主要有:

Max Pooling(最大池化)---> 选择每个小窗口中最大值作为需要的特征像素点(省略掉不重要的特征像素点)

Average Pooling(平均池化) ---> 选择每个小窗口中平均值作为需要的特征像素点

池化层选择较为重要的特征点, 可以降低维度, 能够在一定程度上防止过拟合的发生.

2.2.5 FC全连接层

类似传统神经网络中的结构，FC层中的神经元连接着之前层次的所有**输出；换一句话来讲的话，就是两层之间所有神经元都有权重连接；通常情况下，在CNN中，FC层只会在尾部出现

通过全连接结构,将前面输出的特征重新组合成一张完整的图像.

一般的CNN结构依次为：

INPUT

[[CONV -> RELU] * N -> POOL?]*M

[FC -> RELU] * K

2.2.6 Batch Normalization Layer(一般用于卷积层后面,主要是使得期望结果服从高斯分布,使用较少!!)

三 CNN的优缺点

最后, 简单总结下CNN的优缺点.

优点:

① 使用局部感知和参数共享机制（共享卷积核）, 对于较大的数据集处理能力较高.对高维数据的处理没有压力

② 能够提取图像的深层次的信息,模型表达效果好.

③ 不需要手动进行特征选择, 只要训练好卷积核W和偏置项b, 即可得到特征值.

缺点:

① 需要进行调参, 模型训练时间较长, 需要的样本较多, 一般建议使用GPU进行模型训练.

② 物理含义不明, 每层中的结果无法解释, 这也是神经网络的共有的缺点.

推荐阅读

go
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
go
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
go
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
range
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
range
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
range
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
range
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
range
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
数组
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
js
LeetCode 有效回文串 II：深入解析与优化算法

在 LeetCode 的“有效回文串 II”问题中，给定一个非空字符串 `s`，允许删除最多一个字符。本篇深入解析了如何判断删除一个字符后，字符串是否能成为回文串，并提出了高效的优化算法。通过详细的分析和代码实现，本文提供了多种解决方案，帮助读者更好地理解和应用这一算法。 ... [详细]

蜡笔小新 2024-11-11 17:40:42
range
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
range
浅析卷积码的应用及其优势：探讨卷积编码在通信系统中的关键作用与特性

本文详细介绍了卷积编码的基本原理，并深入分析了其在通信系统中的应用及其显著优势。卷积编码通过在编码过程中引入冗余信息，有效提高了数据传输的可靠性和抗干扰能力，成为现代通信系统中不可或缺的关键技术。文章还探讨了卷积编码在不同场景下的具体实现方法及其性能特点。 ... [详细]

蜡笔小新 2024-11-08 20:36:21
range
不用蘑菇，不拾金币，我通过强化学习成功通关29关马里奥，创造全新纪录

《超级马里奥兄弟》由任天堂于1985年首次发布，是一款经典的横版过关游戏，至今已在多个平台上售出超过5亿套。该游戏不仅勾起了许多玩家的童年回忆，也成为强化学习领域的热门研究对象。近日，通过先进的强化学习技术，研究人员成功让AI通关了29关，创造了新的纪录。这一成就不仅展示了强化学习在游戏领域的潜力，也为未来的人工智能应用提供了宝贵的经验。 ... [详细]

蜡笔小新 2024-10-28 10:11:47
range
在Matlab中自主构建与仿真神经网络模型 - Building and Simulating Neural Network Models Independently in Matlab

在Matlab中，我尝试构建了一个神经网络模型，用于预测函数 y = x^2。为此，我设计并实现了一个拟合神经网络，并对其进行了详细的仿真和验证。通过调整网络结构和参数，成功实现了对目标函数的准确估计。此外，还对模型的性能进行了全面评估，确保其在不同输入条件下的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-10-27 11:21:21
range
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13

JKNx2602931435

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章