激活函数比较

作者：吕贞吟明辉碧瑜 | 来源：互联网 | 2023-07-11 09:45

为什么要用激活函数如果不用激励函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。如果使用的话

为什么要用激活函数

如果不用激励函数&＃xff0c;每一层输出都是上层输入的线性函数&＃xff0c;无论神经网络有多少层&＃xff0c;输出都是输入的线性组合。

如果使用的话&＃xff0c;激活函数给神经元引入了非线性因素&＃xff0c;使得神经网络可以任意逼近任何非线性函数&＃xff0c;这样神经网络就可以应用到众多的非线性模型中。

1.Sigmoid函数

缺点&＃xff1a;

&＃xff08;1&＃xff09;在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失。如果我们初始化神经网络的权值为[0,1] 之间的随机值&＃xff0c;由反向传播算法的数学推导可知&＃xff0c;梯度从后向前传播时&＃xff0c;每传递一层梯度值都会减小为原来的0.25倍&＃xff0c;如果神经网络隐层特别多&＃xff0c;那么梯度在穿过多层后将变得非常小接近于0&＃xff0c;即出现梯度消失现象&＃xff1b;当网络权值初始化为(1,&＃43;∞) 区间内的值&＃xff0c;则会出现梯度爆炸。

&＃xff08;2&＃xff09;非0均值

2.tanh函数&＃xff08;双曲正切函数&＃xff09;

取值范围为[-1,1]&＃xff0c;tanh在特征相差明显时的效果会很好&＃xff0c;在循环过程中会不断扩大特征效果。

与 sigmoid 的区别是&＃xff0c;tanh 是 0 均值的&＃xff0c;因此实际应用中 tanh 会比 sigmoid 更好

3.ReLU

&＃xff08;1&＃xff09; 解决了梯度消失问题 (在正区间)

2&＃xff09;计算速度非常快&＃xff0c;只需要判断输入是否大于0

3&＃xff09;收敛速度远快于sigmoid和tanh

ReLU也有几个需要特别注意的问题&＃xff1a;

&＃xff08;1&＃xff09;ReLU的输出不是zero-centered

&＃xff08;2&＃xff09;神经元死亡&＃xff0c;指的是某些神经元可能永远不会被激活&＃xff0c;导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化&＃xff0c;这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大&＃xff0c;不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法&＃xff0c;以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法

4.Leaky ReLU函数&＃xff08;PReLU&＃xff09;

f&＃xff08;x&＃xff09;&＃61; max&＃xff08;ax&＃xff0c;x&＃xff09; 通常a&＃61;0.01

理论上来讲&＃xff0c;Leaky ReLU有ReLU的所有优点&＃xff0c;外加不会有Dead ReLU问题&＃xff0c;但是在实际操作当中&＃xff0c;并没有完全证明Leaky ReLU总是好于ReLU。

推荐阅读

机器人
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
机器人
智能车间调度研究进展

本文综述了基于强化学习的智能车间调度策略，探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段，解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]

蜡笔小新 2024-12-22 19:02:54
svm
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
神经网络
理解感受野与锚框在目标检测中的应用

本文探讨了卷积神经网络（CNN）中感受野的概念及其与锚框（anchor box）的关系。感受野定义了特征图上每个像素点对应的输入图像区域大小，而锚框则是在每个像素中心生成的多个不同尺寸和宽高比的边界框。两者在目标检测任务中起到关键作用。 ... [详细]

蜡笔小新 2024-12-27 12:03:44
svm
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
神经网络
卷积神经网络（CNN）基础理论与架构解析

本文介绍了卷积神经网络（CNN）的基本概念、常见结构及其各层的功能。重点讨论了LeNet-5、AlexNet、ZFNet、VGGNet和ResNet等经典模型，并详细解释了输入层、卷积层、激活层、池化层和全连接层的工作原理及优化方法。 ... [详细]

蜡笔小新 2024-12-24 18:58:11
深度
堆排序与数据结构中的堆

堆是一种常见的数据结构，广泛应用于计算机科学领域。它通常表示为一棵完全二叉树，并可通过数组实现。堆的主要特性是每个节点的值与其父节点的值之间存在特定的关系，这使得堆在优先队列和排序算法中非常有用。 ... [详细]

蜡笔小新 2024-12-24 15:41:01
深度
2018 区块链技术峰会：专家深度解析核心技术与应用前景

2018年3月31日，CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会（BTA）核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]

蜡笔小新 2024-12-24 10:56:15
神经网络
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
深度
阿里Java面试全解析：从技术面到HR面的详细攻略

本文作者分享了在阿里巴巴获得实习offer的经历，包括五轮面试的详细内容和经验总结。其中四轮为技术面试，一轮为HR面试，涵盖了大量的Java技术和项目实践经验。 ... [详细]

蜡笔小新 2024-12-23 11:32:02
深度
CodeChef 2014 April Challenge - Chef的最终对决：数据结构与整体二分的应用

本题探讨了在大数据结构背景下，如何通过整体二分和CDQ分治等高级算法优化处理复杂的时间序列问题。题目设定包括节点数量、查询次数和权重限制，并详细分析了解决方案中的关键步骤。 ... [详细]

蜡笔小新 2024-12-22 19:34:39
深度
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
机器学习
现代人幸福感缺失的原因探究

随着生活节奏的加快和压力的增加，越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素，并提供了一些改善建议。 ... [详细]

蜡笔小新 2024-12-21 16:09:25
深度
如何使用 CleanMyMac X 2023 激活码解锁完整功能

本文详细介绍了如何使用 CleanMyMac X 2023 激活码解锁软件的全部功能，并提供了一些优化和清理 Mac 系统的专业建议。 ... [详细]

蜡笔小新 2024-12-21 03:29:03
深度
程序员如何优雅应对35岁职业转型？这里有深度解析

本文探讨了程序员在职业生涯中如何通过不断学习和技能提升，优雅地应对35岁左右的职业转型挑战。我们将深入分析当前热门技术趋势，并提供实用的学习路径。 ... [详细]

蜡笔小新 2024-12-20 18:26:03

吕贞吟明辉碧瑜

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章