当前位置: 开发笔记 > 编程语言 > 正文

15.循环神经网络与LSTM

作者：狂风DKC想毕业321 | 来源：互联网 | 2023-10-12 17:33

循环神经网络,一般运用于词条翻译,语调模仿,等等相对于人工神经网络和卷积神经网络,循环神经网络具有记忆功能对于人工神经网络,卷积网络来说,不管怎么梯度下降,输出层和输入层根据权重和

循环神经网络,一般运用于词条翻译,语调模仿,等等

相对于人工神经网络和卷积神经网络,循环神经网络具有'记忆功能'

对于人工神经网络,卷积网络来说,不管怎么梯度下降,输出层和输入层根据权重和池化层等的缩减,至少部分相关的

循环神经网络则不止是输入层经过权重处理的结果,还有'记忆'的权重

循环神经网络的结构

15.循环神经网络与LSTM

x是输入,o是输出,中间展开则是右边的模型

U是权重矩阵,所谓的记忆就是S(t-1)到St经过权重运算之后的参考,就是'记忆',然后根据和新事物的运算,得出新的'记忆',然后循环丢下去,直到最后一个输出结果为止,从结构可以看出来,循环神经网络会参考一个之前的'记忆'

拿St来说St = f(W*S(t-1) + U*Xt) f这个函数可以是tanh之类的

然后输出的是O,如果是做词条预测之类的,O可能是下一个词条的概率

因为上述的计算S这个记忆体来说,并不会有特别完美的记忆力,因为每次都是权重运算,对最开始的数据'记忆力'会渐渐的损失掉

与其它神经网络不同,循环神经网络共享的是一套W,U,V不像其它神经网络一样是有w1,w2,u1,u2之类的

变种RNN

双向RNN

15.循环神经网络与LSTM

因为有些时候,确定一个词,不仅需要之前的词,而且还需要之后的词,所以出来双向RNN确定这个词

最常见的运用,掉了一个词要补全

深层双向RNN

15.循环神经网络与LSTM

和双向RNN的区别就是更深层次一些,比如一个词语的语义要更深层次一点,这样分析出来的结果比单个神经元的RNN要好

LSTM

上面说到'记忆力'会随着时间线的推移而渐渐'遗忘'.而往往有时候的信息就是需要依赖很久以前的数据,而产生的解决办法就是LSTM

LSTM也是循环神经网络的一种,它的记忆体S被改造了,该记的信息会一直传递,不该记的直接截断

15.循环神经网络与LSTM

A可以理解为激励层,对数据做一个非线性的变换,小圈圈为点乘,向量传输就是字面意思,然后两个箭头合并,就是向量(信息)合并

copy是copy一个分支.

15.循环神经网络与LSTM

关键是这一块,这一块表示一个'记忆细胞'的'细胞状态',它只做少量的线性运算,尽量保持信息的完整性,信息在上面流动不变很容易

C相对于原本的S '记忆体'

这个x就是门,它会增加或者去除信息到记忆体内

里面包含一个sigmoid的神经网络层,和一个pointwise乘法操作

sigmoid就和阀门类似,把所有值控制在0-1之间0就是不让通过,1就是可以通过

门

'忘记门',确定丢弃的信息就是忘记门

比如原本主语是他,现在主角变了,变成了她,就可以丢弃他了

15.循环神经网络与LSTM

然后解释下函数ft W没变还是权重矩阵 x 由[h(t-1)]和xt组成 b还是b

放入新数据

sigmoid决定什么值需要更新,Tanh层决定放入什么新数据对应,第一层和上面一毛一样,下面则是判断生成新的数据,再经过一次阀门,筛选一下,然后加到C记忆体里面去

输出

15.循环神经网络与LSTM

首先通过sigmoid决定输出数据,然后和tanh相乘输出数据

LSTM变种

1.增加peephole connection

15.循环神经网络与LSTM

增加的有点复杂,实际效果并不会好太多,用的比较少

15.循环神经网络与LSTM

通过使用coupled忘记和输入门,把之前遗忘和记忆一起做了,接一个分支得右边的函数.

3.GRU

15.循环神经网络与LSTM

把忘记和记忆真的合二为一,变成了更新门,网络简单要更简单了.

了解的太浅,有空再补...

推荐阅读

int
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
bit
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
int
Apache Jena 中 Txn.executeWrite 方法详解与代码示例

本文详细介绍了 Apache Jena 库中的 Txn.executeWrite 方法，通过多个实际代码示例展示了其在不同场景下的应用，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-26 17:55:52
int
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
int
文件描述符、文件句柄与打开文件之间的关联解析

本文详细探讨了文件描述符、文件句柄和打开文件之间的关系，通过具体示例解释了它们在操作系统中的作用及其相互影响。 ... [详细]

蜡笔小新 2024-12-26 14:00:46
int
GDI基础介绍之几何绘图

使用GDI的一些AIP函数我们可以轻易的绘制出简 ... [详细]

蜡笔小新 2024-12-25 18:23:37
int
Java多线程并发控制：解决相同key的线程互斥问题

本文探讨了在Java多线程环境下，如何确保具有相同key值的线程能够互斥执行并按顺序输出结果。通过优化代码结构和使用线程安全的数据结构，我们解决了线程同步问题，并实现了预期的并发行为。 ... [详细]

蜡笔小新 2024-12-25 14:15:29
int
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
int
QT预备式（包含MySql配置）未完成……

20100423：Fixes:更新批处理，以兼容WIN7。第一次系统地玩QT，于是诞生了此预备式：【QT版本4.6.0&#x ... [详细]

蜡笔小新 2024-12-24 09:50:00
controller
使用SSH密钥对实现Linux系统免密码登录

本文详细介绍如何在Linux系统中配置SSH密钥对，以实现从一台主机到另一台主机的无密码登录。内容涵盖密钥对生成、公钥分发及权限设置等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 16:17:45
int
Python——对象自省

对象自省自省在计算机编程领域里，是指在运行时判断一个对象的类型和能力。dir能够返回一个列表，列举了一个对象所拥有的属性和方法。my_list[ ... [详细]

蜡笔小新 2024-12-23 12:55:35
int
深入理解JavaScript的作用域链与闭包

本文详细探讨了JavaScript中的作用域链和闭包机制，解释了它们的工作原理及其在实际编程中的应用。通过具体的代码示例，帮助读者更好地理解和掌握这些概念。 ... [详细]

蜡笔小新 2024-12-23 01:27:41
int
深入解析Java枚举及其高级特性

本文详细介绍了Java枚举的概念、语法、使用规则和应用场景，并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual)，欢迎Star并持续关注。 ... [详细]

蜡笔小新 2024-12-22 14:46:52
int
深入理解sed的G、H、g、h命令及其高级应用

本文详细介绍了流编辑器sed中的G、H、g、h命令，探讨了它们的工作原理及应用场景。通过实例解析和图解分析，帮助读者掌握这些高级命令的使用方法。 ... [详细]

蜡笔小新 2024-12-22 12:24:49
int
优化C++项目中的JSON处理：选择高性能的RapidJSON库

在高并发需求的C++项目中，我们最初选择了JsonCpp进行JSON解析和序列化。然而，在处理大数据量时，JsonCpp频繁抛出异常，尤其是在多线程环境下问题更为突出。通过分析发现，旧版本的JsonCpp存在多线程安全性和性能瓶颈。经过评估，我们最终选择了RapidJSON作为替代方案，并实现了显著的性能提升。 ... [详细]

蜡笔小新 2024-12-21 18:13:59

狂风DKC想毕业321

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章