作者:kkkkkkkkkkkk1982_799 | 来源:互联网 | 2023-10-12 18:51
文章目录 感知机(Perceptron) 神经网络(Neural Network) 附录 神经网络代码 感知机结构图代码 神经网络结构图代码 矩阵求导公式 感知机(Perceptron)
一种简单的感知机结构如下图所示,由三个输入节点和一个输出节点构成,三个输入节点x1,x2,x3分别代表一个输入样本x的三个特征值;w1,w2,w3分别代表三个特征值对应的权重;b为偏置项;输出节点中的z和o分别代表线性变换后的输出值和非线性变换后的输出值。
(1) { z = x 1 ∗ w 1 + x 2 ∗ w 3 + x 3 ∗ w 3 + b o = f ( z ) begin{cases}z = x_1*w_1+x_2*w_3+x_3*w_3+b\o=f(z)end{cases} tag{1} { z = x 1 ∗ w 1 + x 2 ∗ w 3 + x 3 ∗ w 3 + b o = f ( z ) ( 1 )
其中映射函数f f f 为激活函数,下面列几个常见的激活函数:
函数名 函数表达式 导数 s i g m o i d sigmoid s i g m o i d f ( z ) = 1 1 + e − z f(z)=dfrac{1}{1+e^{-z}} f ( z ) = 1 + e − z 1 f ( z ) [ 1 − f ( z ) ] f(z)[1-f(z)] f ( z ) [ 1 − f ( z ) ] t a n h tanh t a n h f ( z ) = e z − e − z e z + e − z f(z)=dfrac{e^z-e^{-z}}{e^z+e^{-z}} f ( z ) = e z + e − z e z − e − z 1 − f ( z ) 2 1-f(z)^2 1 − f ( z ) 2 s o f t m a x softmax s o f t m a x f ( z ) = e z i ∑ j = 0 n e z j f(z)=dfrac{e^{z_i}}{sum_{j=0}^n e^{z_j}} f ( z ) = ∑ j = 0 n e z j e z i 经常用其构成的 损失函数的导数: f ( z i ) − t ( i ) f(z_i)-t(i)~ f ( z i ) − t ( i )
神经网络(Neural Network)
神经网络基本结构神经网络与感知机类似,但是它的节点更加复杂,下图是一个含有1层隐藏层的神经网络,也是一种最简单的神经网络,我们可以看到这个神经网络的输入层有2个节点,隐藏层有3个节点,输出层有1个节点。我们可以认为神经网络由多个感知机构成。我们以下图所示结构为例,实现一个可以进行数据分类的神经网络。
假设我们有N个样本,对于每一个样本来说,都有两个特征值,对于这样的每一个样本x ( x 1 , x 2 ) textbf{textit{x}}(x_1,x_2) x ( x 1 , x 2 ) 都满足公式2,公式中带小括号的上标代表神经网络的层数,w i j w_{ij} w i j 为相邻两层两个节点之间的权重系数,其中的i i i 代表前一层的第i i i 个节点,j j j 代表后一层的第j j j 个节点。
(2) { z 1 ( 1 ) = x 1 ∗ w 11 ( 1 ) + x 2 ∗ w 21 ( 1 ) + b 1 ( 1 ) , h 1 = f ( z 1 ( 1 ) ) z 2 ( 1 ) = x 1 ∗ w 22 ( 1 ) + x 2 ∗ w 22 ( 1 ) + b 2 ( 1 ) , h 2 = f ( z 2 ( 1 ) ) z 3 ( 1 ) = x 1 ∗ w 13 ( 1 ) + x 2 ∗ w 23 ( 1 ) + b 3 ( 1 ) , h 3 = f ( z 3 1 ) z ( 2 ) = h 1 ∗ w 1 ( 2 ) + h 2 ∗ w 2 ( 2 ) + h 3 ∗ w 3 ( 2 ) + b ( 2 ) , o = f ( z ( 2 ) ) begin{cases}z^{(1)}_{1} = x_1*w^{(1)}_{11}+x_2*w^{(1)}_{21}+b^{(1)}_1,~h_1=f(z^{(1)}_{1})\z^{(1)}_2 = x_1*w^{(1)}_{22}+x_2*w^{(1)}_{22}+b^{(1)}_2,~h_2=f(z^{(1)}_2)\z^{(1)}_3 = x_1*w^{(1)}_{13}+x_2*w^{(1)}_{23}+b^{(1)}_3 ,~h_3=f(z^1_3)\z^{(2) }= h_1*w^{(2) }_{1}+ h_2*w^{(2) }_{2}+ h_3*w^{(2) }_{3}+b^{(2)},~o=f(z^{(2)})end{cases}tag{2} ⎩ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎧ z 1 ( 1 ) = x 1 ∗ w 1 1 ( 1 ) + x 2 ∗ w 2 1 ( 1 ) + b 1 ( 1 ) , h 1 = f ( z 1 ( 1 ) ) z 2 ( 1 ) = x 1 ∗ w 2 2 ( 1 ) + x 2 ∗ w 2 2 ( 1 ) + b 2 ( 1 ) , h 2 = f ( z 2 ( 1 ) ) z 3 ( 1 ) = x 1 ∗ w 1 3 ( 1 ) + x 2 ∗ w 2 3 ( 1 ) + b 3 ( 1 ) , h 3 = f ( z 3 1 ) z ( 2 ) = h 1 ∗ w 1 ( 2 ) + h 2 ∗ w 2 ( 2 ) +