梯度消失(Gradient Vanishing)问题,即在梯度的反向传播过程中,后层的 梯度以连乘方式叠加到前层。由于当时神经网络中的激活函数一般都使用Sigmoid 函数,而它具有饱和特性,在输入达到一定值的情况下,输出就不会发生明显变 化了。而后层梯度本来就比较小,误差梯度反传到前层时几乎会衰减为0,因此无 法对前层的参数进行有效的学习,
循环神经网络模型的求解可以采用BPTT(Back Propagation Through Time,基 于时间的反向传播)算法实现,BPTT实际上是反向传播算法的简单变种。如果将 循环神经网络按时间展开成T层的前馈神经网络来理解,就和普通的反向传播算法 没有什么区别了。循环神经网络的设计初衷之一就是能够捕获长距离输入之间的 依赖。从结构上来看,循环神经网络也理应能够做到这一点。然而实践发现,使 用BPTT算法学习的循环神经网络并不能成功捕捉到长距离的依赖关系,这一现象 主要源于深度神经网络中的梯度消失。传统的循环神经网络梯度可以表示成连乘 的形式
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200711172815599.png
知识点: LSTM,门控,激活函数,双曲正切函数,Sigmoid函数