当前位置: 开发笔记 > 后端 > 正文

【CS231N】4、神经网络

作者：日月小明空间_785 | 来源：互联网 | 2023-06-25 21:44

一、疑问二、常用激活函数1.Sigmoidsigmoid将输入实数值“挤压”到0到1范围内。更具体地说，很大的负数变成0，很大的正数变成1。它对于神经元的激活频率有良好的解释：从完全

一、疑问

二、常用激活函数

1. Sigmoid

sigmoid将输入实数值“挤压”到0到1范围内。更具体地说，很大的负数变成0，很大的正数变成1。它对于神经元的激活频率有良好的解释：从完全不激活到在求和后的最大频率处的完全饱和（saturated）的激活。然而现在sigmoid函数实际很少使用了，这是因为它有两个主要缺点：

Sigmoid函数饱和使梯度消失。sigmoid神经元的激活在接近0或1处时会饱和：在这些区域，梯度几乎为0。在反向传播的时候，这个（局部）梯度将会与整个损失函数关于该门单元输出的梯度相乘。因此，如果局部梯度非常小，那么相乘的结果也会接近零，这会有效地“杀死”梯度，几乎就有没有信号通过神经元传到权重再到数据了。还有，为了防止饱和，必须对于权重矩阵初始化特别留意。比如，如果初始化权重过大，那么大多数神经元将会饱和，导致网络就几乎不学习了。
Sigmoid函数的输出不是零中心的。在神经网络后面层中的神经元得到的数据将不是零中心的。这一情况将影响梯度下降的运作，因为如果输入神经元的数据总是正数（比如在中每个元素都），那么关于的梯度在反向传播的过程中，将会要么全部是正数，要么全部是负数（具体依整个表达式而定）。这将会导致梯度下降权重更新时出现z字型的下降。然而，可以看到整个批量的数据的梯度被加起来后，对于权重的最终更新将会有不同的正负，这样就从一定程度上减轻了这个问题。因此，该问题相对于上面的神经元饱和问题来说只是个小麻烦，没有那么严重。

2. Tanh

将实数值压缩到[-1,1]之间。和sigmoid神经元一样，它也存在饱和问题，但是和sigmoid神经元不同的是，它的输出是零中心的。因此，在实际操作中，tanh非线性函数比sigmoid非线性函数更受欢迎。tanh神经元是一个简单放大的sigmoid神经元，具体说来就是： $tanh(x)=2\sigma(2x)-1$ 。

3. ReLU

函数公式是 f(x)=max(0,x) 。，这个激活函数就是一个关于0的阈值（如上图左侧）。使用ReLU有以下一些优缺点：

优点：相较于sigmoid和tanh函数，ReLU对于随机梯度下降的收敛有巨大的加速作用（6倍之多）。据称这是由它的线性，非饱和的公式导致的。
优点：sigmoid和tanh神经元含有指数运算等耗费计算资源的操作，而ReLU可以简单地通过对一个矩阵进行阈值计算得到。
缺点：在训练的时候，ReLU单元比较脆弱并且可能“死掉”。举例来说，当一个很大的梯度流过ReLU的神经元的时候，可能会导致梯度更新到一种特别的状态，在这种状态下神经元将无法被其他任何数据点再次激活。如果这种情况发生，那么从此所以流过这个神经元的梯度将都变成0。也就是说，这个ReLU单元在训练中将不可逆转的死亡，因为这导致了数据多样化的丢失。例如，如果学习率设置得太高，可能会发现网络中40%的神经元都会死掉（在整个训练集中这些神经元都不会被激活）。通过合理设置学习率，这种情况的发生概率会降低。

三、神经网络结构

1.命名规则

当我们说N层神经网络的时候，我们没有把输入层算入。因此，单层的神经网络就是没有隐层的（输入直接映射到输出）。

2. 输出层

和神经网络中其他层不同，输出层的神经元一般是不会有激活函数的（或者也可以认为它们有一个线性相等的激活函数）。这是因为最后的输出层大多用于表示分类评分值，因此是任意值的实数，或者某种实数值的目标数（比如在回归中）。

3. 表达能力

拥有至少一个隐层的神经网络是一个通用的近似器。给出任意连续函数和任意 $\epsilon >0$ ，均存在一个至少含1个隐层的神经网络（并且网络中有合理选择的非线性激活函数，比如sigmoid），对于 $\forall x$ ，使得 $|f(x)-g(x)|<\epsilon$ 。换句话说，神经网络可以近似任何连续函数。

既然一个隐层就能近似任何函数，那为什么还要构建更多层来将网络做得更深？

答案是：虽然一个2层网络在数学理论上能完美地近似所有连续函数，但在实际操作中效果相对较差。神经网络在实践中非常好用，是因为它们表达出的函数不仅平滑，而且对于数据的统计特性有很好的拟合。同时，网络通过最优化算法（例如梯度下降）能比较容易地学习到这个函数。类似的，虽然在理论上深层网络（使用了多个隐层）和单层网络的表达能力是一样的，但是就实践经验而言，深度网络效果比单层网络好。

4.层的尺寸

尽可能使用大网络，然后用正则化技巧来控制过拟合。

推荐阅读

正则
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
正则
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
正则
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
正则
卷积神经网络（CNN）基础理论与架构解析

本文介绍了卷积神经网络（CNN）的基本概念、常见结构及其各层的功能。重点讨论了LeNet-5、AlexNet、ZFNet、VGGNet和ResNet等经典模型，并详细解释了输入层、卷积层、激活层、池化层和全连接层的工作原理及优化方法。 ... [详细]

蜡笔小新 2024-12-24 18:58:11
正则
智能车间调度研究进展

本文综述了基于强化学习的智能车间调度策略，探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段，解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]

蜡笔小新 2024-12-22 19:02:54
service
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
service
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
service
深度学习理论解析与理解

梯度方向指示函数值增加的方向，由各轴方向的偏导数综合而成，其模长表示函数值变化的速率。本文详细探讨了导数、偏导数、梯度等概念，并结合Softmax函数、卷积神经网络（CNN）中的卷积计算、权值共享及池化操作进行了深入分析。 ... [详细]

蜡笔小新 2024-12-26 18:23:11
service
自学编程与计算机专业背景者的差异分析

本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处，结合实际案例分析两者的优势与劣势。 ... [详细]

蜡笔小新 2024-12-26 17:53:18
service
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
service
帝国CMS多图上传插件详解及使用指南

本文介绍了一款用于帝国CMS的多图上传插件，该插件通过Flash技术实现批量图片上传功能，显著提升了多图上传效率。文章详细说明了插件的安装、配置和使用方法。 ... [详细]

蜡笔小新 2024-12-26 13:30:01
token
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
jvm
阿里Java面试全解析：从技术面到HR面的详细攻略

本文作者分享了在阿里巴巴获得实习offer的经历，包括五轮面试的详细内容和经验总结。其中四轮为技术面试，一轮为HR面试，涵盖了大量的Java技术和项目实践经验。 ... [详细]

蜡笔小新 2024-12-23 11:32:02
分布式
Netflix利用Druid实现高效实时数据分析

本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid，实现了高效的数据采集、处理和实时分析，从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践，并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]

蜡笔小新 2024-12-23 11:10:01
分布式
CodeChef 2014 April Challenge - Chef的最终对决：数据结构与整体二分的应用

本题探讨了在大数据结构背景下，如何通过整体二分和CDQ分治等高级算法优化处理复杂的时间序列问题。题目设定包括节点数量、查询次数和权重限制，并详细分析了解决方案中的关键步骤。 ... [详细]

蜡笔小新 2024-12-22 19:34:39

日月小明空间_785

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章