深度学习【5】循环神经网络（RNN）反向传播算法（BPTT）理解

作者：爱你一辈子2502860605 | 来源：互联网 | 2023-09-09 16:53

深度学习【5】循环神经网络（RNN）反向传播算法（BPTT）理解,Go语言社区,Golang程序员人脉社

http://blog.csdn.net/linmingan/article/details/50958304

循环神经网络的反向传播算法其实只是BP算法的一个简单变体而已。

首先我们先看看循环神经网络的前向传播算法：

需要注意的是，该RNN中前一时刻到当前时刻只有一个权重矩阵 $W_{hh}$ ，该权重矩阵与时间并没有什么关系。整个前向传播算法与BP网络的前向传播算法的差别是多了一个前一时刻隐藏层的信息 $h_{t-1}$ 而已。在我们这边的前向传播算法可能与大家平时看到的会有点出入，因为这个前向传播算法将传播过程中的各个阶段都拆分开来表示。在进入激活函数前先用额外的两个变量表示，分别是进入隐藏层激活函数e前的 $u_{t}$ 和进入输出层激活函数g前的 $o_{t}$ 。进行这样的拆分是为了更好的实现反向传播算法，即链式求导法则。

RNN的前向传播算法是以时间的推移进行的，其实就是一些时序上的数据，比如音频中分帧后的得到的一系列的音频信号帧。RNN的输入数据与其他神经网络如DNN的输入数据不同的是，RNN的输入数据样本不能打乱，必须按时间进行输入，而其他的神经网络输入数据可以打乱。所RNN与其他神经网络的前向传播算法和反向传播算法的实现其实并没有什么特别之处，只是多了几个变量。因此RNN的关于时间的t循环可以看做，第t个训练样本（或者第t个批量训练样本），但是一定要保持先后顺序，不然学习出来的 $W_{hh}$ 可能没有什么用处。

接下来给出BPTT算法：

从BPTT算法可以看出，要求 $b_{o}$ 和 $W_{oh}$ 的梯度必须先求 $o_{t}$ 的梯度，因为从前向传播算法我们可以知道 $b_{o}$ 和 $W_{oh}$ 是直接决定 $o_{t}$ 的值的。类似的要求 $b_{h}$ 和 $W_{hh}$ 的梯度必须先求 $u_t$ 的梯度（上述算法中有错误，从第6行开始 $dz_{t}$ 应该都改为 $du_t$ ，请大家注意一下）。这就是神经网络求导中的链式法则（chain rule）。

BPTT算法详解：

$2:do_t\leftarrow dL(z_t,y_t)/do_t=dz_t/do_t\cdot dL(z_t,y_t)/dz_t$

其中， $dz_t/do_t=g^{'}(o_t)$

$3:db_o\leftarrow db_o+dL(z_t,y_t)/db_o=db_o+dL(z_t,y_t)/do_t\cdot do_t/db_o$
其中， $do_t/db_o=1$

$4:dW_{oh}\leftarrow dW_{oh}+dL(z_t,y_t)/dW_{oh}=dW_{oh}+dL(z_t,y_t)/do_t\cdot do_t/dW_{oh}$

其中， $do_t/dW_{oh}=h^T_t$

$5:dh_t\leftarrow =dh_t+dL(z_t,y_t)/dh_t=dh_t+do_t/dh_t\cdot dL(z_t,y_t)/do_t$

其中， $do_t/dh_t=W_{oh}^T$

$6:du_t\leftarrow dL(z_t,y_t)/du_t=dh_t/du_t\cdot dL(z_t,y_t)/dh_t$

其中， $dh_t/du_t=e^{'}(u_t)$

$7:dW_{hv}\leftarrow dW_{hv}+dL(z_t,y_t)/dW_{hv}=dW_{hv}+dL(z_t,y_t)/du_t\cdot du_t/dW_{hv}$

其中， $du_t/dW_{hv}=v^T$

$8:db_h\leftarrow db_h+dL(z_t,y_t)/db_h=db_h+dL(z_t,y_t)/du_t\cdot du_t/db_h$

其中， $du_t/db_h=1$

$9:dW_{hh}\leftarrow dW_{hh}+dL(z_t,y_t)/dW_{hh}=dW_{hh}+dL(z_t,y_t)/du_t\cdot du_t/dW_{hh}$

其中， $du_t/dW_{hh}=h_{t-1}^T$

$10:dh_{t-1}= dL(z_t,y_t)/dh_{t-1}=du_t/dh_{t-1}\cdot dL(z_t,y_t)/du_t=W_{hh}^Tdu_t$

其中， $du_t/dh_{t-1}=W_{hh}^T$

那么，在时间上的误差是怎么传播的呢？其实在一开始的BPTT算法流程中就已经显示出了，因为RNN中的参数是在一个for t from T downto 1这个的一个for循环下进行的，并且训练参数的更新，在每个t时刻上是累加的（BPTT中的步骤3,4,7,8,9）。

推荐阅读

python
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
jar
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
php
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
get
ipsec 加密流程（二）：ipsec初始化操作

《openswan》专栏系列文章主要是记录openswan源码学习过程中的笔记。Author:叨陪鲤Email:vip_13031075266163.comDate:2020.1 ... [详细]

蜡笔小新 2024-11-15 20:32:44
include
嵌入式Linux工程师笔试题精选

本文整理了一份基础的嵌入式Linux工程师笔试题，涵盖填空题、编程题和简答题，旨在帮助考生更好地准备考试。 ... [详细]

蜡笔小新 2024-11-15 10:42:13
get
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
get
专业人士如何做自媒体

专业人士如何做自媒体 ... [详细]

蜡笔小新 2024-11-13 20:59:44
get
深度学习入门 - 理解神经网络的基本概念

本文介绍了实现人工智能的多种方法，并重点探讨了当前最热门的技术——通过深度学习训练神经网络。文章通过具体实例详细解释了神经网络的基本原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 17:35:06
get
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
cmd
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
cmd
SQL Server 存储过程开发与优化指南

本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧，旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]

蜡笔小新 2024-11-12 13:13:21
cmd
CM 创始人分享：在 GitHub 上成为开源项目的守护者

本文由 CM 创始人 Steve Klabnik 发表在其个人博客上，详细介绍了他在 GitHub 上为 Rails 开源项目所做的贡献和经验，特别强调了如何有效管理和筛选项目中的问题。 ... [详细]

蜡笔小新 2024-11-12 11:29:56
cmd
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
get
基于OpenCV的图像拼接技术实践与示例代码解析

图像拼接技术在全景摄影中具有广泛应用，如手机全景拍摄功能，通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法，并提供了示例代码解析，帮助读者深入理解该技术的实现过程。 ... [详细]

蜡笔小新 2024-11-03 12:48:59

爱你一辈子2502860605

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章