当前位置: 开发笔记 > 后端 > 正文

什么是梯度消失和梯度爆炸

作者：我叫33妹 | 来源：互联网 | 2023-10-14 18:54

一、梯度消失、梯度爆炸产生的原因说白了，对于1.11.2，其实就是矩阵的高次幂导致的。在多层神经网络中，影响因素主要是权值和激活函数的偏

一、梯度消失、梯度爆炸产生的原因

说白了&＃xff0c;对于1.1 1.2&＃xff0c;其实就是矩阵的高次幂导致的。在多层神经网络中&＃xff0c;影响因素主要是权值和激活函数的偏导数。

1.1 前馈网络

假设存在一个网络结构如图&＃xff1a;

在这里插入图片描述

其表达式为&＃xff1a;
在这里插入图片描述

若要对于w1求梯度&＃xff0c;根据链式求导法则&＃xff0c;得到的解为&＃xff1a;
在这里插入图片描述

通常&＃xff0c;若使用的激活函数为sigmoid函数&＃xff0c;其导数&＃xff1a; 在这里插入图片描述

这样可以看到&＃xff0c;如果我们使用标准化初始w&＃xff0c;那么各个层次的相乘都是0-1之间的小数&＃xff0c;而激活函数f的导数也是0-1之间的数&＃xff0c;其连乘后&＃xff0c;结果会变的很小&＃xff0c;导致梯度消失。若我们初始化的w是很大的数&＃xff0c;w大到乘以激活函数的导数都大于1&＃xff0c;那么连乘后&＃xff0c;可能会导致求导的结果很大&＃xff0c;形成梯度爆炸。

当然&＃xff0c;若对于b求偏导的话&＃xff0c;其实也是一个道理&＃xff1a;
在这里插入图片描述

推出&＃xff1a;
在这里插入图片描述

1.2 RNN

对于RNN的梯度下降方法&＃xff0c;是一种基于时间的反向求导算法&＃xff08;BPTT&＃xff09;&＃xff0c;RNN的表达式&＃xff1a;
在这里插入图片描述

通常我们会将一个完整的句子序列视作一个训练样本&＃xff0c;因此总误差即为各时间步&＃xff08;单词&＃xff09;的误差之和。
在这里插入图片描述

而RNN还存在一个权值共享的问题&＃xff0c;即这几个w都是一个&＃xff0c;假设&＃xff0c;存在一个反复与w相乘的路径&＃xff0c;t步后&＃xff0c;得到向量&＃xff1a; 在这里插入图片描述

若特征值大于1&＃xff0c;则会出现梯度爆炸&＃xff0c;若特征值小于1&＃xff0c;则会出现梯度消失。因此在一定程度上&＃xff0c;RNN对比BP更容易出现梯度问题。主要是因为RNN处理时间步长一旦长了&＃xff0c;W求导的路径也变的很长&＃xff0c;即使RNN深度不大&＃xff0c;也会比较深的BP神经网络的链式求导的过程长很大&＃xff1b;另外&＃xff0c;对于共享权值w&＃xff0c;不同的wi相乘也在一定程度上可以避免梯度问题。

1.3 悬崖和梯度爆炸

对于目标函数&＃xff0c;通常存在梯度变化很大的一个“悬崖”&＃xff0c;在此处求梯度&＃xff0c;很容易导致求解不稳定的梯度爆炸现象。
在这里插入图片描述

三、梯度消失和梯度爆炸哪种经常出现

事实上&＃xff0c;梯度消失更容易出现&＃xff0c;因为对于激活函数的求导&＃xff1a;
在这里插入图片描述

可以看到&＃xff0c;当w越大&＃xff0c;其wx&＃43;b很可能变的很大&＃xff0c;而根据上面sigmoid函数导数的图像可以看到&＃xff0c;wx&＃43;b越大&＃xff0c;导数的值也会变的很小。因此&＃xff0c;若要出现梯度爆炸&＃xff0c;其w既要大还要保证激活函数的导数不要太小。

二、如何解决梯度消失、梯度爆炸

1、对于RNN&＃xff0c;可以通过梯度截断&＃xff0c;避免梯度爆炸

2、可以通过添加正则项&＃xff0c;避免梯度爆炸

3、使用LSTM等自循环和门控制机制&＃xff0c;避免梯度消失&＃xff0c;参考&＃xff1a;https://www.cnblogs.com/pinking/p/9362966.html

4、优化激活函数&＃xff0c;譬如将sigmold改为relu&＃xff0c;避免梯度消失

推荐阅读

html
信用评分卡的Python实现与评估

本文介绍如何使用Python构建和评估信用评分卡模型，涵盖数据预处理、模型训练及验证指标选择。附带详细代码示例和视频教程链接。 ... [详细]

蜡笔小新 2024-12-25 10:16:23
注入
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
ci
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
ci
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
http
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
ci
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
ci
自学编程与计算机专业背景者的差异分析

本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处，结合实际案例分析两者的优势与劣势。 ... [详细]

蜡笔小新 2024-12-26 17:53:18
ci
深入解析JMeter中的JSON提取器及其应用

本文详细介绍了如何在JMeter中使用JSON提取器来获取和处理API响应中的数据。特别是在需要将一个接口返回的数据作为下一个接口的输入时，JSON提取器是一个非常有用的工具。 ... [详细]

蜡笔小新 2024-12-25 16:34:37
ci
基于jQuery的用户注册页面表单验证代码分享

本文介绍了一段使用jQuery实现的用户注册页面表单验证代码，适用于前端开发人员学习和参考。该示例结合了HTML、CSS和JavaScript，确保用户输入的数据格式正确。 ... [详细]

蜡笔小新 2024-12-24 14:37:46
port
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02
port
解决Python中 'NoneType' 对象无属性 'find_all' 错误

本文详细探讨了在Python编程中遇到的常见错误——'NoneType'对象没有属性'find_all'，并深入分析其原因及解决方案。通过理解find_all函数的工作原理和常见用法，帮助读者避免类似问题。 ... [详细]

蜡笔小新 2024-12-23 16:40:43
ci
实用正则表达式有哪些

小编给大家分享一下实用正则表达式有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下 ... [详细]

蜡笔小新 2024-12-22 13:59:04
port
使用正则表达式去除字符串中单词间的空格

本文探讨了如何在Hive（基于Hadoop）环境中编写类似SQL的语句，以去除字段中的空格。特别是在处理邮政编码等数据时，去除特定位置的空格是常见的需求。 ... [详细]

蜡笔小新 2024-12-20 19:08:43
port
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
ci
游戏开发中的人工智能复习指南

本文档旨在帮助开发者回顾游戏开发中的人工智能技术，涵盖移动算法、群聚行为、路径规划、脚本AI、有限状态机、模糊逻辑、规则式AI、概率论与贝叶斯技术、神经网络及遗传算法等内容。 ... [详细]

蜡笔小新 2024-12-16 10:01:32

我叫33妹

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章