当前位置: 开发笔记 > 后端 > 正文

对dropout的一些理解

作者：熊字饼爱优乐美 | 来源：互联网 | 2023-09-10 14:28

20.为什么dropout在训练期间神经元将被连接到两倍于（平均）的输入神经元。为了弥补这个事实，我们需要在训练之后将每个神经元的输入连接

20. 为什么dropout在训练期间神经元将被连接到两倍于&＃xff08; 平均&＃xff09; 的输入神经元。为了弥补这个事实&＃xff0c;我们需要在训练之后将每个神经元的输入连接权重乘以 1-p??

有一个小而重要的技术细节。假设 p &＃61; 50% &＃xff0c;在这种情况下&＃xff0c;在测试期间&＃xff0c;输入的信号是训练新号的两倍&＃xff0c;因为训练的时候对输入信号进行了dropout&＃xff08;p&＃61;0.5&＃xff09;&＃xff0c;而测试的时候不进行dropout&＃xff0c;所以训练的时候输入信号只是测试的一半&＃xff0c;一般的在训练期间神经元将被连接到两倍于&＃xff08; 平均&＃xff09; 的输入神经元。为了保证输入信号的量不会发生巨大变化&＃xff0c;造成网络的不稳定。我们将训练之后将每个神经元的输入连接权重乘以 0.5。这样保证了测试的信号输入量和训练的是一样的。更一般地说&＃xff0c;我们需要将每个输入连接权重乘以训练后的保持概率&＃xff08;1-p&＃xff09;。

或者&＃xff1a;在训练时&＃xff0c;激活神经元的平均数量为原来的 p倍。而在测试时&＃xff0c;所有的神经元都是可以激活的&＃xff0c;这会造成训练和测试时网络的输出不一致。为了缓解这个问题&＃xff0c;在测试时需要将每一个神经元的输出乘以 p&＃xff0c;也相当于把不同的神经网络做了平均。

大型网络但是数据集缺少的时候可以使用dropout防止过拟合&＃xff0c;对于小型网络或者说不缺数据集的网络不推荐使用。

21. dropout 是否会减慢训练&＃xff1f; 它是否会减慢预测&＃xff08; 即预测新的实例&＃xff09; &＃xff1f;

是的&＃xff0c;dropout确实会减慢训练的速度&＃xff0c;一般来说&＃xff0c;大约是两倍。然而&＃xff0c;它对预测没有影响&＃xff0c;因为它只在训练时打开。

22&＃xff0e;Dropout 是如何用训练好的网络来预测输出&＃xff1f;即如何将训练好的网络组合起来&＃xff1f;和bagging一样吗&＃xff1f;

而做预测Dropout是关闭的状态&＃xff0c;代表着做预测时是所有训练时结构不同的神经网络一起做的最后的预测。整个过程就是多个不同神经网络最后投票做决定给出预测值。

当层较宽时,丢弃所有从输入到输出的可能路径的概率变小,所以这个问题对于层较宽的网络不是很重要。

这里我们再讲一种和Bagging类似但是又不同的正则化方法&＃xff1a;Dropout。

　　　　所谓的Dropout指的是在用前向传播算法和反向传播算法训练DNN模型时&＃xff0c;一批数据迭代时&＃xff0c;随机的从全连接DNN网络中去掉一部分隐藏层的神经元。

　　　　比如我们本来的DNN模型对应的结构是这样的&＃xff1a;

　　　　在对训练集中的一批数据进行训练时&＃xff0c;我们随机去掉一部分隐藏层的神经元&＃xff0c;并用去掉隐藏层的神经元的网络来拟合我们的一批训练数据。如下图&＃xff0c;去掉了一半的隐藏层神经元&＃xff1a;

　　　　然后用这个去掉隐藏层的神经元的网络来进行一轮迭代&＃xff0c;更新所有的W,b。这就是所谓的dropout。

　　　　当然&＃xff0c;dropout并不意味着这些神经元永远的消失了。在下一批数据迭代前&＃xff0c;我们会把DNN模型恢复成最初的全连接模型&＃xff0c;然后再用随机的方法去掉部分隐藏层的神经元&＃xff0c;接着去迭代更新W,b。当然&＃xff0c;这次用随机的方法去掉部分隐藏层后的残缺DNN网络和上次的残缺DNN网络并不相同。

　　总结下dropout的方法&＃xff1a; 每轮梯度下降迭代时&＃xff0c;它需要将训练数据分成若干批&＃xff0c;然后分批进行迭代&＃xff0c;每批数据迭代时&＃xff0c;需要将原始的DNN模型随机去掉部分隐藏层的神经元&＃xff0c;用残缺的DNN模型来迭代更新W,b。每批数据迭代更新完毕后&＃xff0c;要将残缺的DNN模型恢复成原始的DNN模型。

　　　　从上面的描述可以看出dropout和Bagging的正则化思路还是很不相同的。dropout模型中的W,b是一套&＃xff0c;共享的&＃xff08;很多博客都说共享&＃xff0c;一直不理解&＃xff0c;原来才是W,b是只有一组&＃xff0c;每用不同的网络训练一次&＃xff0c;就更新一次W.b&＃xff09;。所有的残缺DNN迭代时&＃xff0c;更新的是同一组W,b&＃xff1b;而Bagging正则化时每个DNN模型有自己独有的一套W,b参数&＃xff0c;相互之间是独立的。当然他们每次使用基于原始数据集得到的分批的数据集来训练模型&＃xff0c;这点是类似的。

　　　　使用基于dropout的正则化比基于bagging的正则化简单&＃xff0c;这显而易见&＃xff0c;当然天下没有免费的午餐&＃xff0c;由于dropout会将原始数据分批迭代&＃xff0c;因此原始数据集最好较大&＃xff0c;否则模型可能会欠拟合。

24. dropout可以比较有效地减轻过拟合的发生&＃xff0c;一定程度上达到了正则化的效果。论其原因而言&＃xff0c;主要可以分为两个方面&＃xff1a;

达到了一种Vote的作用。对于全连接神经网络而言&＃xff0c;我们用相同的数据去训练5个不同的神经网络可能会得到多个不同的结果&＃xff0c;我们可以通过一种vote机制来决定多票者胜出&＃xff0c;因此相对而言提升了网络的精度与鲁棒性。同理&＃xff0c;对于单个神经网络而言&＃xff0c;如果我们将其进行分批&＃xff0c;虽然不同的网络可能会产生不同程度的过拟合&＃xff0c;但是将其公用一个损失函数&＃xff0c;相当于对其同时进行了优化&＃xff0c;取了平均&＃xff0c;因此可以较为有效地防止过拟合的发生。
减少神经元之间复杂的共适应性。当隐藏层神经元被随机删除之后&＃xff0c;使得全连接网络具有了一定的稀疏化&＃xff0c;从而有效地减轻了不同特征的协同效应。也就是说&＃xff0c;有些特征可能会依赖于固定关系的隐含节点的共同作用&＃xff0c;而通过Dropout的话&＃xff0c;它强迫一个神经单元&＃xff0c;和随机挑选出来的其他神经单元共同工作&＃xff0c;达到好的效果。消除减弱了神经元节点间的联合适应性&＃xff0c;增强了泛化能力。

由于每次用输入网络的样本进行权值更新时&＃xff0c;隐含节点都是以一定概率随机出现&＃xff0c;因此不能保证每2个隐含节点每次都同时出现&＃xff0c;这样权值的更新不再依赖于有固定关系隐含节点的共同作用&＃xff0c;阻止了某些特征仅仅在其它特定特征下才有效果的情况。
---------------------

bagging与dropout&＃xff1a;

在bagging中&＃xff0c;所有的分类器都是独立的&＃xff0c;而在dropout中&＃xff0c;所有的模型都是共享参数的。
在bagging中&＃xff0c;所有的分类器都是在特定的数据集下训练至收敛&＃xff0c;而在dropout中没有明确的模型训练过程。网络都是在一步中训练一次&＃xff08;输入一个样本&＃xff0c;随机训练一个子网络&＃xff09;
&＃xff08;相同点&＃xff09;对于训练集来说&＃xff0c;每一个子网络的训练数据是通过原始数据的替代采样得到的子集。(这个意思就是&＃xff0c;对于bagging来说,训练集是从整个样本中又放回的随机采样得到的&＃xff0c;而对于dropout来说是相当于随机采样整个网络的权值&＃xff0c;但是这里面不会有重复采样的权值&＃xff0c;两个方法都是每次训练新的网络或者森林从完整的数据中进行采样)

主要参考&＃xff1a;https://www.cnblogs.com/pinard/p/6472666.html&＃xff08;强烈推荐&＃xff09;

https://blog.csdn.net/m0_37477175/article/details/77145459

https://blog.csdn.net/fu6543210/article/details/84450890

推荐阅读

nlp
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
nlp
使用Numpy实现无外部库依赖的双线性插值图像缩放

本文介绍如何仅使用Numpy库，通过双线性插值方法实现图像的高效缩放，避免了对OpenCV等图像处理库的依赖。文中详细解释了算法原理，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 13:15:40
nlp
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
nlp
深入解析JMeter中的JSON提取器及其应用

本文详细介绍了如何在JMeter中使用JSON提取器来获取和处理API响应中的数据。特别是在需要将一个接口返回的数据作为下一个接口的输入时，JSON提取器是一个非常有用的工具。 ... [详细]

蜡笔小新 2024-12-25 16:34:37
static
基于jQuery的用户注册页面表单验证代码分享

本文介绍了一段使用jQuery实现的用户注册页面表单验证代码，适用于前端开发人员学习和参考。该示例结合了HTML、CSS和JavaScript，确保用户输入的数据格式正确。 ... [详细]

蜡笔小新 2024-12-24 14:37:46
注入
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
注入
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02
注入
解决Python中 'NoneType' 对象无属性 'find_all' 错误

本文详细探讨了在Python编程中遇到的常见错误——'NoneType'对象没有属性'find_all'，并深入分析其原因及解决方案。通过理解find_all函数的工作原理和常见用法，帮助读者避免类似问题。 ... [详细]

蜡笔小新 2024-12-23 16:40:43
vb
实用正则表达式有哪些

小编给大家分享一下实用正则表达式有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下 ... [详细]

蜡笔小新 2024-12-22 13:59:04
vb
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
api
使用正则表达式去除字符串中单词间的空格

本文探讨了如何在Hive（基于Hadoop）环境中编写类似SQL的语句，以去除字段中的空格。特别是在处理邮政编码等数据时，去除特定位置的空格是常见的需求。 ... [详细]

蜡笔小新 2024-12-20 19:08:43
api
游戏开发中的人工智能复习指南

本文档旨在帮助开发者回顾游戏开发中的人工智能技术，涵盖移动算法、群聚行为、路径规划、脚本AI、有限状态机、模糊逻辑、规则式AI、概率论与贝叶斯技术、神经网络及遗传算法等内容。 ... [详细]

蜡笔小新 2024-12-16 10:01:32
api
【度量学习】Siamese Network

基于2-channelnetwork的图片相似度判别一、相关理论本篇博文主要讲解2015年CVPR的一篇关于图像相似度计算的文章：《LearningtoCompar ... [详细]

蜡笔小新 2024-12-12 19:11:33
api
火星商店问题：线段树分治与持久化Trie树的应用

本题涉及编号为1至n的火星商店，每个商店有一个永久商品价值v。操作包括每天在指定商店增加一个新商品，以及查询某段时间内某些商店中所有商品（含永久商品）与给定密码值的最大异或结果。通过线段树分治和持久化Trie树来高效解决此问题。 ... [详细]

蜡笔小新 2024-12-27 21:23:11
api
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32

熊字饼爱优乐美

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章