斯坦福cs231n学习笔记（7）------神经网络训练细节（激活函数）

作者：安静哒发呆 | 来源：互联网 | 2023-09-03 09:36

神经网络训练细节系列笔记：神经网络训练细节（BatchNormalization）神经网络训练细节（数据预处理、权重初始化）神经网络训练细节（训练过程，超参数优化）

神经网络训练细节系列笔记：

神经网络训练细节（Batch Normalization）
神经网络训练细节（数据预处理、权重初始化）
神经网络训练细节（训练过程，超参数优化）

上一篇斯坦福cs231n学习笔记（6）——神经网络初步从生物神经元角度简单的介绍了神经网络的结构，这一篇将着重介绍神经网络的训练细节，如何高效的训练神经网络。

一、追溯历史

可能女孩子都喜欢爱回忆过去，每次一讲到神经网络的历史，就特别激动，昨天在twitter上关注了Yann LeCun，内心更是激动不已，仿佛能感受到他在1998年提出CNN时的那种划时代的震撼力。AI真是一个充满挑战又激动人心的领域。就像学良老师所说，我们一直相信未来！
那么，长话短说，我们简单聊一聊a bit of history:
* 追溯到1957年，Frank Rosenblatt发明被称之为感知机的机器，就像神经网络的硬件实现，由电路和电子元件连接：

激活函数使用的是二进制阶梯函数：

由式子可以激活函数不能进行微分运算，也不能反向传播。同时，Frank Rosenblatt提出了学习法则，通过设置权值，得到好的训练结果：

在1957那个年代，没有损失函数的概念，没有反向传播的概念。

Widrow and Hoff在1960年对感知机进行改进，提出适应性神经元，将感知机整合成一个多层次的感知机网络，由下图可知，同样是由电子元件和电路组成的硬件器件，没有反向传播概念，同样也是有学习法则来评定神经网络的性能好坏。
在1986年，神经网络有了突破性的进展，源于由Rumelhart等人第一次提出的反向传播的概念（Back-propagation），摒弃了多层次感知机特定的学习法则，并提出了损失函数的公式以及梯度下降的概念，但是对于大型的神经网络，训练效果并不是很好。
在1986~2006年，神经网络的研究并没有什么实质性进展，直至2006年，神经网络开始复兴，由Hinton and Salakhutdinov 发表的论文，他们在深度学习中采用了一个无监督预训练方案，使用RBM（限制波尔兹曼机）不在单通道中对所有层使用反向传播算法，而是在第一层建立一个无监督的学习目标，第二层，第三层，第四层…….对数据集进行预训练，也就是逐层进行训练，然后将所有层整合起来进行反向传播。
在2010~2012年人们开始普遍注意到神经网络，最开始是应用在语音识别方面，是由微软提出将神经网络运用在GMM+HMM语音识别模型中，用来改善语音识别的效果。在2012年，神经网络开始应用到图像识别领域，变得愈加火热。分析原因，大概是因为有很多好的方式用来实现激活函数的初始化以及GPU硬件的发展，更重要的是数据作为驱动力的时代已经来临！

神经网络的历史就说到这里，下面我们来详解神经网络的训练细节。

二、激活函数（Activation Function）

也就是图中的f，在上一篇中斯坦福cs231n学习笔记（6）——神经网络初步简单的介绍了几种激活函数，下面将从各个函数的优缺点和特点详细的介绍每一种激活函数。
* Sigmoid

sigmoid函数在过去的一段历史中非常受欢迎，又被称为挤压函数，取值为[0,1]之间的实数。同时，sigmoid存在3个问题：
（1）一个饱和的神经元（Saturated neurons），也就是这个神经元的输出要么非常接近1要么非常接近0。这类神经元会导致在反向传播算法中出现梯度趋0的问题，这个问题叫做梯度弥散（消失）。重点解释这意味着什么，先看一下sigmoid函数的运算链路：

输入一个x，会输出一个sigmoid结果，然后进行反向传播，运用链式法则，最终得到dl/dx，可以看到，链式法则就是将这两项相乘。那我们想象一下，当sigmoid单数的输入是-10，0，10时会发生什么？
当x取-10或10时，梯度会非常小。在sigmoid图像上可以看到，在取值-10的地方，因为这点的斜率为0，梯度几乎为0；在取值为10的地方也几乎是0。那么问题来了，在输出是1或者0的时候，那么你的梯度将会趋于0，当局部梯度是一个很小的数，在进行反向传播的时候将会停止。因此可以想象我们有一个很大的sigmoid神经网络，而且很多数据都落在饱和区域，输出值不是0就是1，那么梯度将无法对网络进行反向传播，因为梯度的传播将很快停止。当很多数据落在饱和区域，梯度将只会当你的数据落在安全区域时才会变化，这一安全区域我们被称为sigmoid函数的激活区域。
（2）另一个问题是，sigmoid函数的输出不是关于远点中心对称的。假设我们有一个多层的sigmoid神经网络，如果你的输入x都是正数，然后这些不关于原点对称的输出值都集中在0和1之间，那么在反向传播中w的梯度会传播到网络的某一处，那么权值的变化是要么全正要么全负。解释下：当梯度从上层传播下来，w的梯度都是用x乘以f的梯度，因此如果神经元输出的梯度是正的，那么所有w的梯度就会是正的，反之亦然。在这个例子中，我们会得到两种权值，权值范围分别位于图中一三象限：

当输入一个值时，w的梯度要么都是正的要么都是负的，当我们想要输入一三象限区域以外的点时，我们将会得到这种并不理想的曲折路线（zig zag path），图中红色曲折路线。虽然这个理由很简单，但根据经验得出，如果我们训练的数据并不关于原点中心对称，收敛速度会非常之慢。
（3）最后一个问题就是，sigmoid函数的表达书中关于exp()的计算是很耗时的，这可能是一个小细节，但当你去训练很大的卷积网络，耗时的痛苦无法想象。

tanh(x)

tanh(x)函数是由Yann LeCun在1991年提出的，最终的输出是[-1,1]之间的实数，好比两个sigmoid函数叠在一起，由图像可以看出tanh是关于原点对称的，在这方面的做的很nice。但是tanh(x)与sigmoid函数有相同的缺点，就是梯度仍然会出现的饱和的问题，导致梯度无法传播。
ReLU（Rectified Linear Unit修正线性单元）

ReLU是Krizhevsky等人在2012年关于一篇卷积神经网络的论文中提出的一种非线性函数max(0,x)。在使用ReLU激活函数之后，神经网络收敛速度非常快，达到了之前的六倍速。简短的讲一下原因，首先因为ReLU不会饱和，至少在输入为正的时候，在正的区域内不会产生梯度弥散的问题，梯度不会突然为0，当神经元在很小的有边界的区域被激活时，才会出现梯度消失的问题。实际上，这些神经元只在反向传播的过程中才会被激活，不论正确与否，至少在一半的区域内（正区域内）反向传播不会是0。Also，ReLU有一些缺点：
（1）输出结果不是关于原点对称的；
（2）有一个很烦恼的事，当输入的神经元x<0时，梯度是怎样的？当ReLU神经元没有被激活时，会发生什么情况？答案是梯度会消散。因此，非激活的输入值无法进行反向传播，权值也不会更新，可以说，这个神经网络什么都没有做。
【Hint：这里说的梯度是指泛化的梯度，指原函数是必须可微的。】
在使用ReLU激活函数的时候，可能会发生这样的情形，如果这个神经元什么都不输出，那么说明没有任何的梯度，假如梯度弥散了，就不会有任何更新。
那么问题来了：初始化ReLU神经元时，输入数据集之后，我们可能会得到dead ReLU神经元，如果神经元在数据集的外面，那么dead ReLU将永远不会激活，参数也不会更新。

以上问题的发生，通常发生在一下两种情况：
（1）在初始化过程中，如果你非常不幸的将权重设置成不能使神经元激活的数值，神经元将不会训练Data集；
（2）在训练过程中，若学习速率太高，想象一下这些神经元在一定范围内波动，将会发生数据多样性的丢失，在这种情况下，神经元不会被激活，数据多样性的丢失也不会逆转。
在实践中，我们会看到这种情况，当训练很大的且激活函数为ReLU的神经网络，在训练过程中，看起来一切运行正常，但需要停止训练，因为当我们将整个训练集输入网络，查看所有神经元的统计状况时，我们会发现有10%或20%的神经元已经死了（不会被训练集中任何数据激活），为了解决初始化中dead ReLU问题，人们把偏置值b设置成很小的证书0.01，而不是0，这使未经初始化的ReLU更有可能输出正值，从而使参数更新，减少神经元在训练过程中不被激活的可能性。虽然这种做法会起一定作用，但是很多人还是不认可这种做法。因此，有了Leaky ReLU，PReLU，ELU等等的出现，那我们继续…
Leaky ReLU

Leaky ReLU很好的解决了dead ReLU的问题，因为Leaky ReLU保留了第三象限的曲线，分段线性并保留了ReLU的效率。以前ReLU在第三象限的区域内的梯度会消失，而Leaky ReLU给这个区间一个很小的负或正的斜率，而不会有神经元死了的问题。
PReLU（参数校正器）

PReLU对Leaky ReLU进行升级，由表达式可以看出，多了一个α参数，那么计算图中的每一个神经元都会有一个α参数，就像偏置值b一样，α参数可以由反向传播学习此参数。同时只有让αx和x不相等，计算过程才有意义。
ELU（Exponential Linear Units ）

ELU是由Clevert等人在2015年提出的，使用非常普遍，有着ReLU所有的优点，并且不会出现dead ReLU，并且有着接近0的平均输出。但是因为表达式中有exp()，所以有一定的计算成本。
In short，小心使用ReLU，ReLU是一个很好的选择！
Maxout “Neuron”（Maxout神经元）
Maxout “Neuron”是由Goodfellow等人在2013年提出的一种很有特点的神经元，它的激活函数、计算的变量、计算方式和普通的神经元完全不同，并有两组权重。先得到两个超平面，再进行最大值计算。激活函数是Generalizes ReLU和Leaky ReLU，没有ReLU函数的缺点，不会出现神经元失活(dead)，仍然是分段线性和高效率。

在使用Maxout神经元时，会有2倍的参数问题。这个方法不是很理想。

Tip:有着不同的激活函数的神经元之所以优化过程不同，不单单的与损失函数有关，还与梯度反向传播的动态过程有关，我们应动态的思考问题，才能把各类参数调整得游刃有余。

推荐阅读

eval
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
range
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
range
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
tree
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
java
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
java
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
char
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
char
42VERSE & 圆圈徽章，Web3 社交的流派之争——针对两个国内案例的调研

01 行业分析本文所研究的细分赛道为：Web3应用层——社交与内容场景——DID/创新场景（以元宇宙3D空间为 ... [详细]

蜡笔小新 2024-09-29 12:10:23
char
每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖

2019年3月27日——ACM宣布，深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖， ... [详细]

蜡笔小新 2024-09-27 16:03:32
string
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
string
合天网络安全实验室CTF实战演练中的逆向工程挑战题

近期在研究逆向工程，因此尝试了一些CTF题目。通过合天网络安全实验室的CTF实战演练平台（http://www.hetianlab.com/CTFrace.html），我对Linux逆向工程的掌握还不够深入，因此暂时跳过了RE300题目。首先从逆向100开始，将文件后缀名修改为.apk进行初步分析。这一过程不仅帮助我熟悉了基本的逆向技巧，还加深了对Android应用结构的理解。 ... [详细]

蜡笔小新 2024-11-11 21:02:10
string
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
string
提升开发技能的八大策略与方法

许多前端开发人员和客户都在寻求具备创新和技术能力的专业人才，但往往由于缺乏足够的曝光度和声誉，这些人才难以被潜在客户发现。本文将介绍八种有效策略和方法，帮助开发者提升技能并增强市场竞争力。 ... [详细]

蜡笔小新 2024-11-04 17:10:13
char
EMURGO Africa 与 Adaverse 合作投资 Momint，推动 Cardano NFT 生态系统在非洲市场的扩展

EMURGO Africa 与 Adaverse 合作投资 Momint，推动 Cardano NFT 生态系统在非洲市场的扩展 ... [详细]

蜡笔小新 2024-10-23 15:27:10
join
REI DAO Proposal #4 Has Passed, Retroactive Airdrop Rewards Have Been Distributed

ProgressReportNov7-Nov 15 ... [详细]

蜡笔小新 2024-10-19 13:43:56

安静哒发呆

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章