反向传播(BackPropagation)

作者：不懂珍惜的林记热_713 | 来源：互联网 | 2023-09-18 05:29

在利用梯度下降法对神经网络权重等参数进行训练时，需要利用反向传播去计算损失函数对权重参数的偏导数。反向传播下面分析是如何反向传播的(分析时不考虑偏置项)，参考上图，①对于一个神经元

在利用梯度下降法对神经网络权重等参数进行训练时，需要利用反向传播去计算损失函数对权重参数的偏导数。

反向传播

下面分析是如何反向传播的(分析时不考虑偏置项)，
在这里插入图片描述

参考上图，
① 对于一个神经元

j

j

j，它的输出被定义为，

(1.1)

O

j

=

φ

(

n

e

t

j

)

=

φ

(

∑

k

=

1

N

w

k

j

O

k

)

O_j = \varphi(net_j)=\varphi(\sum_{k=1}^N w_{kj}O_k) \tag{1.1}

Oj=φ(netj)=φ(k=1∑NwkjOk)(1.1)
其中,

w

k

j

w_{kj}

wkj表示神经元

k

k

k到

j

j

j之间的权重，

O

k

O_k

Ok是上一层神经元的输出。

φ

\varphi

φ为激活函数，这里取为

l

o

g

i

s

t

i

c

logistic

logistic函数，

(1.2)

φ

(

z

)

=

1

1

+

e

−

z

\varphi(z)=\frac{1}{1+ e^{-z} } \tag{1.2}

φ(z)=1+e−z1(1.2)

l

o

g

i

s

t

i

c

logistic

logistic函数的求导公式为，

(1.3)

d

φ

(

z

)

d

z

=

φ

(

z

)

(

1

−

φ

(

z

)

)

\dfrac {d\varphi \left( z\right) }{dz}=\varphi\left( z\right) \left( 1-\varphi\left( z\right) \right) \tag{1.3}

dzdφ(z)=φ(z)(1−φ(z))(1.3)
② 损失函数定义为，

(1.4)

E

=

1

2

(

t

−

y

)

2

E=\dfrac {1}{2}\left( t-y\right) ^{2} \tag{1.4}

E=21(t−y)2(1.4)
其中，

y

y

y为输出层的输出，

t

t

t为期望输出。

考虑

w

k

j

w_{kj}

wkj对于

E

E

E的影响，是

O

j

O_j

Oj间接影响的，因此可得下面的公式(这里假设

j

j

j前一层神经元为

i

i

i，即求对

w

i

j

w_{ij}

wij的偏导数)，

(1.5)

∂

E

∂

w

i

j

=

∂

E

∂

O

j

∂

O

j

∂

n

e

t

j

∂

n

e

t

j

∂

w

i

j

\dfrac {\partial E}{\partial w_{ij}}=\dfrac {\partial E}{\partial O_{j}}\dfrac {\partial O_{j}}{\partial net_{j}}\dfrac {\partial net_{j}}{\partial w_{ij}} \tag{1.5}

∂wij∂E=∂Oj∂E∂netj∂Oj∂wij∂netj(1.5)
其中，后两个偏导数可以直接求出，

∂

O

j

∂

n

e

t

j

\frac{\partial O_{j}}{\partial net_{j}}

∂netj∂Oj参考公式

1.3

{1.3}

1.3，

∂

n

e

t

j

∂

w

i

j

=

O

i

\dfrac {\partial net_{j}}{\partial w_{ij}}=O_i

∂wij∂netj=Oi。但是此时，

∂

E

∂

O

j

\dfrac{\partial E}{\partial {O_j}}

∂Oj∂E，依然无法求出。不过如果

j

j

j是输出层，因为

O

j

=

y

O_j=y

Oj=y，此时可求出

E

E

E对

O

j

O_j

Oj的偏导数，

(1.6)

∂

E

∂

O

j

=

∂

E

∂

y

=

∂

∂

y

1

2

(

t

−

y

)

2

=

y

−

t

\dfrac {\partial E}{\partial O_{j}}=\dfrac {\partial E}{\partial y}=\dfrac {\partial }{\partial y}\dfrac {1}{2}\left( t-y\right) ^{2}=y-t \tag{1.6}

∂Oj∂E=∂y∂E=∂y∂21(t−y)2=y−t(1.6)
下面就到了最关键的一步，此时对于非输出层，我们无法直接求出

∂

E

∂

O

j

\frac{\partial E}{\partial {O_j}}

∂Oj∂E，考虑将

O

j

O_j

Oj对

E

E

E的作用向

j

j

j的下一层迭代，我们把

E

E

E考虑成一个输入由

L

=

u

,

v

…

,

w

L=u,v \dots,w

L=u,v…,w这些神经元组成的函数，

O

j

O_j

Oj是

u

,

v

,

w

u,v,w

u,v,w这些神经元的输入，

O

j

O_j

Oj直接构成了对

n

e

t

u

,

n

e

t

v

,

n

e

t

w

net_u,net_v,net_w

netu,netv,netw的影响。

(1.7)

∂

E

(

O

j

)

∂

O

j

=

∂

E

(

n

e

t

u

,

n

e

t

v

,

…

,

n

e

t

w

)

∂

O

j

\dfrac {\partial E\left( O_{j}\right) }{\partial O_{j}}=\dfrac {\partial E\left( net_u,net_v,\ldots ,net_{w}\right) }{\partial O_{j}} \tag{1.7}

∂Oj∂E(Oj)=∂Oj∂E(netu,netv,…,netw)(1.7)
利用全微分形式，可以获取到一个递归方程，

(1.8)

∂

E

∂

O

j

=

∑

l

∈

L

(

∂

E

∂

n

e

t

l

∂

n

e

t

l

∂

O

j

)

=

∑

l

∈

L

(

∂

E

∂

O

l

∂

O

l

∂

n

e

t

l

w

j

l

)

\dfrac {\partial E}{\partial O_{j}}=\sum _{l\in L}\left( \dfrac {\partial E}{\partial net_{l}}\dfrac {\partial net_{l}}{\partial O_j}\right) =\sum _{l\in L}\left( \dfrac {\partial E}{\partial O_l}\dfrac {\partial O_l}{\partial net_l}w_{jl}\right) \tag{1.8}

∂Oj∂E=l∈L∑(∂netl∂E∂Oj∂netl)=l∈L∑(∂Ol∂E∂netl∂Olwjl)(1.8)

通过递归方程，我们可以从输出层开始对需要求的偏导数进行递归，因此得名反向传播。

一个例子

下面以一个简单的网络来对上面的反向传播结果进行验证，如下图所示，
在这里插入图片描述

(1.9)

∂

E

∂

w

j

−

1

,

j

=

∂

E

∂

O

j

∂

O

j

∂

n

e

t

j

∂

n

e

t

j

∂

w

j

−

1

,

j

\dfrac {\partial E}{\partial w_{j-1,j}}=\dfrac {\partial E}{\partial O_j}\dfrac {\partial O_j}{\partial net_j}\dfrac {\partial net_j}{\partial w_{j-1,j}} \tag{1.9}

∂wj−1,j∂E=∂Oj∂E∂netj∂Oj∂wj−1,j∂netj(1.9)

其中，上式

∂

E

∂

O

j

=

∂

E

∂

y

\dfrac {\partial E}{\partial O_j}=\dfrac {\partial E}{\partial y}

∂Oj∂E=∂y∂E，三项偏导数都可求出。接着求

∂

E

∂

w

j

−

2

,

j

−

1

\dfrac {\partial E}{\partial w_{j-2,j-1}}

∂wj−2,j−1∂E，

(1.10)

∂

E

∂

w

j

−

2

,

j

−

1

=

∂

E

∂

O

j

−

1

∂

O

j

−

1

∂

n

e

t

j

−

1

∂

n

e

t

j

−

1

∂

w

j

−

2

,

j

−

1

=

∂

E

∂

O

j

∂

O

j

∂

n

e

t

j

∂

n

e

t

j

∂

O

j

−

1

∂

O

j

−

1

∂

n

e

t

j

−

1

∂

n

e

t

j

−

1

∂

w

j

−

2

,

j

−

1

\dfrac {\partial E}{\partial w_{j-2,j-1}}=\dfrac {\partial E}{\partial O_{j-1}}\dfrac {\partial O_{j-1}}{\partial net_{j-1}}\dfrac {\partial net_{j-1}}{\partial w_{j-2,j-1}}=\dfrac {\partial E}{\partial O_{j}}\dfrac {\partial O_j}{\partial net_j}\dfrac {\partial net_j}{\partial O_{j-1}}\dfrac {\partial O_{j-1}}{\partial net_{j-1}}\dfrac {\partial net_{j-1}}{\partial w_{j-2,j-1}} \tag{1.10}

∂wj−2,j−1∂E=∂Oj−1∂E∂netj−1∂Oj−1∂wj−2,j−1∂netj−1=∂Oj∂E∂netj∂Oj∂Oj−1∂netj∂netj−1∂Oj−1∂wj−2,j−1∂netj−1(1.10)

在上式中，

∂

E

∂

O

j

−

1

=

∂

E

∂

O

j

∂

O

j

∂

n

e

t

j

∂

n

e

t

j

∂

O

j

−

1

\dfrac {\partial E}{\partial O_{j-1}}=\dfrac {\partial E}{\partial O_{j}}\dfrac {\partial O_j}{\partial net_j}\dfrac {\partial net_j}{\partial O_{j-1}}

∂Oj−1∂E=∂Oj∂E∂netj∂Oj∂Oj−1∂netj，求

∂

E

∂

O

j

−

1

\dfrac {\partial E}{\partial O_{j-1}}

∂Oj−1∂E时先求出

E

E

E对上一层的

O

j

O_j

Oj的偏导数

∂

E

∂

O

j

\dfrac {\partial E}{\partial O_{j}}

∂Oj∂E，公式(1.10)和(1.8)完全对应，上述过程充分体现了链式法则。

推荐阅读

sum
每日学术推荐：异质图神经网络在抽取式文档摘要中的应用研究

在抽取式文档摘要任务中，学习跨句子关系是至关重要的一步。本文探讨了利用异质图神经网络来捕捉句子间复杂关系的有效方法。通过构建包含不同类型节点和边的图结构，模型能够更准确地识别和提取关键信息，从而生成高质量的摘要。实验结果表明，该方法在多个基准数据集上显著优于传统方法。 ... [详细]

蜡笔小新 2024-11-06 13:02:39
split
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
main
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
uri
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
window
2022年2月微信小程序 app.json 配置详解：启用调试模式

本文将详细介绍如何在微信小程序的 app.json 文件中启用调试模式（debug），并通过实际案例展示其配置方法和应用场景。 ... [详细]

蜡笔小新 2024-11-14 08:21:10
default
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
default
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
数组
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
netty
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
main
USACO ORZHDU_4277 DFS + STL + 枚举算法

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=4277。作者：Bob Lee，日期：2012年9月15日。题目描述：给定n个木棍，求可以组成的不同三角形的数量，最多15根木棍。 ... [详细]

蜡笔小新 2024-11-12 00:38:10
main
深入解析二元Probit模型及其应用

本文详细探讨了二元Probit模型及其在实际应用中的重要性。作为一种广义线性模型，Probit模型主要用于处理二分类问题，与Logistic模型类似，但其假设误差项服从标准正态分布。尽管Probit模型在某些领域应用较少，但在特定情境下仍具有独特优势。文章不仅介绍了模型的基本原理，还通过实例分析展示了其在经济学、社会学等领域的具体应用。 ... [详细]

蜡笔小新 2024-11-11 12:07:01
main
射频领域博士学位：信号处理算法在射频技术中的职业前景如何？

射频领域的博士学位在信号处理算法方面具有广阔的职业前景，尤其是在射频技术的应用中。例如，加入华为的射频基站部门，从事数字预失真等关键技术的研发工作。在此过程中，需要注意持续跟踪最新的学术和技术进展，保持对行业动态的敏感性，并不断提升自身的实践能力和创新能力。此外，除了技术层面，还应关注行业的整体发展趋势，以便更好地规划职业生涯。 ... [详细]

蜡笔小新 2024-11-02 18:41:10
join
从零开始掌握PyTorch：生成对抗网络GAN进阶指南（第九篇）

本文将深入探讨生成对抗网络（GAN）在计算机视觉领域的应用。作为该领域的经典模型，GAN通过生成器和判别器的对抗训练，能够高效地生成高质量的图像。本文不仅回顾了GAN的基本原理，还将介绍一些最新的进展和技术优化方法，帮助读者全面掌握这一重要工具。 ... [详细]

蜡笔小新 2024-11-02 13:18:42
join
吴恩达深度学习课程笔记：第一部分第三周——浅层神经网络详解

浅层神经网络解析：本文详细探讨了两层神经网络（即一个输入层、一个隐藏层和一个输出层）的结构与工作原理。通过吴恩达教授的课程，读者将深入了解浅层神经网络的基本概念、参数初始化方法以及前向传播和反向传播的具体实现步骤。此外，文章还介绍了如何利用这些基础知识解决实际问题，并提供了丰富的实例和代码示例。 ... [详细]

蜡笔小新 2024-11-02 12:20:03
join
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09

不懂珍惜的林记热_713

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章