当前位置: 开发笔记 > 编程语言 > 正文

【转】完全图解RNN、RNN变体、Seq2Seq、Attention机制

作者：紫木之阁_229 | 来源：互联网 | 2023-08-01 09:12

本文转载自：https:zhuanlan.zhihu.comp28054589本文主要是利用图片的形式，详细地介绍了经典的RNN、RNN几个重要变体&#

本文转载自&＃xff1a;https://zhuanlan.zhihu.com/p/28054589

本文主要是利用图片的形式&＃xff0c;详细地介绍了经典的RNN、RNN几个重要变体&＃xff0c;以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角&＃xff0c;帮助初学者更好地入门。

一、从单层网络谈起

在学习RNN之前&＃xff0c;首先要了解一下最基本的单层网络&＃xff0c;它的结构如图&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

输入是x&＃xff0c;经过变换Wx&＃43;b和激活函数f得到输出y。相信大家对这个已经非常熟悉了。

二、经典的RNN结构&＃xff08;N vs N&＃xff09;

在实际应用中&＃xff0c;我们还会遇到很多序列形的数据&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

如&＃xff1a;

自然语言处理问题。x1可以看做是第一个单词&＃xff0c;x2可以看做是第二个单词&＃xff0c;依次类推。
语音处理。此时&＃xff0c;x1、x2、x3……是每帧的声音信号。
时间序列问题。例如每天的股票价格等等

序列形的数据就不太好用原始的神经网络处理了。为了建模序列问题&＃xff0c;RNN引入了隐状态h&＃xff08;hidden state&＃xff09;的概念&＃xff0c;h可以对序列形的数据提取特征&＃xff0c;接着再转换为输出。先从h1的计算开始看&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

图示中记号的含义是&＃xff1a;

圆圈或方块表示的是向量。
一个箭头就表示对该向量做一次变换。如上图中h0和x1分别有一个箭头连接&＃xff0c;就表示对h0和x1各做了一次变换。

在很多论文中也会出现类似的记号&＃xff0c;初学的时候很容易搞乱&＃xff0c;但只要把握住以上两点&＃xff0c;就可以比较轻松地理解图示背后的含义。

h2的计算和h1类似。要注意的是&＃xff0c;在计算时&＃xff0c;每一步使用的参数U、W、b都是一样的&＃xff0c;也就是说每个步骤的参数都是共享的&＃xff0c;这是RNN的重要特点&＃xff0c;一定要牢记。

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

依次计算剩下来的&＃xff08;使用相同的参数U、W、b&＃xff09;&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

我们这里为了方便起见&＃xff0c;只画出序列长度为4的情况&＃xff0c;实际上&＃xff0c;这个计算过程可以无限地持续下去。

我们目前的RNN还没有输出&＃xff0c;得到输出值的方法就是直接通过h进行计算&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

正如之前所说&＃xff0c;一个箭头就表示对对应的向量做一次类似于f(Wx&＃43;b)的变换&＃xff0c;这里的这个箭头就表示对h1进行一次变换&＃xff0c;得到输出y1。

剩下的输出类似进行&＃xff08;使用和y1同样的参数V和c&＃xff09;&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

OK&＃xff01;大功告成&＃xff01;这就是最经典的RNN结构&＃xff0c;我们像搭积木一样把它搭好了。它的输入是x1, x2, .....xn&＃xff0c;输出为y1, y2, ...yn&＃xff0c;也就是说&＃xff0c;输入和输出序列必须要是等长的。

由于这个限制的存在&＃xff0c;经典RNN的适用范围比较小&＃xff0c;但也有一些问题适合用经典的RNN结构建模&＃xff0c;如&＃xff1a;

计算视频中每一帧的分类标签。因为要对每一帧进行计算&＃xff0c;因此输入和输出序列等长。
输入为字符&＃xff0c;输出为下一个字符的概率。这就是著名的Char RNN&＃xff08;详细介绍请参考&＃xff1a;The Unreasonable Effectiveness of Recurrent Neural Networks&＃xff0c;Char RNN可以用来生成文章&＃xff0c;诗歌&＃xff0c;甚至是代码&＃xff0c;非常有意思&＃xff09;。

三、N VS 1

有的时候&＃xff0c;我们要处理的问题输入是一个序列&＃xff0c;输出是一个单独的值而不是序列&＃xff0c;应该怎样建模呢&＃xff1f;实际上&＃xff0c;我们只在最后一个h上进行输出变换就可以了&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

这种结构通常用来处理序列分类问题。如输入一段文字判别它所属的类别&＃xff0c;输入一个句子判断其情感倾向&＃xff0c;输入一段视频并判断它的类别等等。

四、1 VS N

输入不是序列而输出为序列的情况怎么处理&＃xff1f;我们可以只在序列开始进行输入计算&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

还有一种结构是把输入信息X作为每个阶段的输入&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

下图省略了一些X的圆圈&＃xff0c;是一个等价表示&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

这种1 VS N的结构可以处理的问题有&＃xff1a;

从图像生成文字&＃xff08;image caption&＃xff09;&＃xff0c;此时输入的X就是图像的特征&＃xff0c;而输出的y序列就是一段句子
从类别生成语音或音乐等

五、N vs M

下面我们来介绍RNN最重要的一个变种&＃xff1a;N vs M。这种结构又叫Encoder-Decoder模型&＃xff0c;也可以称之为Seq2Seq模型。

原始的N vs N RNN要求序列等长&＃xff0c;然而我们遇到的大部分问题序列都是不等长的&＃xff0c;如机器翻译中&＃xff0c;源语言和目标语言的句子往往并没有相同的长度。

为此&＃xff0c;Encoder-Decoder结构先将输入数据编码成一个上下文向量c&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

得到c有多种方式&＃xff0c;最简单的方法就是把Encoder的最后一个隐状态赋值给c&＃xff0c;还可以对最后的隐状态做一个变换得到c&＃xff0c;也可以对所有的隐状态做变换。

拿到c之后&＃xff0c;就用另一个RNN网络对其进行解码&＃xff0c;这部分RNN网络被称为Decoder。具体做法就是将c当做之前的初始状态h0输入到Decoder中&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

还有一种做法是将c当做每一步的输入&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

由于这种Encoder-Decoder结构不限制输入和输出的序列长度&＃xff0c;因此应用的范围非常广泛&＃xff0c;比如&＃xff1a;

机器翻译。Encoder-Decoder的最经典应用&＃xff0c;事实上这一结构就是在机器翻译领域最先提出的
文本摘要。输入是一段文本序列&＃xff0c;输出是这段文本序列的摘要序列。
阅读理解。将输入的文章和问题分别编码&＃xff0c;再对其进行解码得到问题的答案。
语音识别。输入是语音信号序列&＃xff0c;输出是文字序列。
…………

六、Attention机制

在Encoder-Decoder结构中&＃xff0c;Encoder把所有的输入序列都编码成一个统一的语义特征c再解码&＃xff0c;因此&＃xff0c; c中必须包含原始序列中的所有信息&＃xff0c;它的长度就成了限制模型性能的瓶颈。如机器翻译问题&＃xff0c;当要翻译的句子较长时&＃xff0c;一个c可能存不下那么多信息&＃xff0c;就会造成翻译精度的下降。

Attention机制通过在每个时间输入不同的c来解决这个问题&＃xff0c;下图是带有Attention机制的Decoder&＃xff1a;

å®å¨å¾è§£RNNãRNNåä½ãSeq2SeqãAttentionæºå¶

每一个c会自动去选取与当前所要输出的y最合适的上下文信息。具体来说&＃xff0c;我们用 $a_{ij}$

输入的序列是“我爱中国”&＃xff0c;因此&＃xff0c;Encoder中的h1、h2、h3、h4就可以分别看做是“我”、“爱”、“中”、“国”所代表的信息。在翻译成英语时&＃xff0c;第一个上下文c1应该和“我”这个字最相关&＃xff0c;因此对应的 $a_{11}$

$a_{2j}$

$a_{3j}$

以上就是带有Attention的Encoder-Decoder模型计算的全过程。

七、总结

本文主要讲了N vs N&＃xff0c;N vs 1、1 vs N、N vs M四种经典的RNN模型&＃xff0c;以及如何使用Attention结构。希望能对大家有所帮助。
可能有小伙伴发现没有LSTM的内容&＃xff0c;其实是因为LSTM从外部看和RNN完全一样&＃xff0c;因此上面的所有结构对LSTM都是通用的&＃xff0c;想了解LSTM内部结构的可以参考这篇文章&＃xff1a;Understanding LSTM Networks&＃xff0c;写得非常好&＃xff0c;推荐阅读。

io

https

图片

自然语言处理

神经网络

h2

char

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

text
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新   2024-11-12 14:58:57

io
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新   2024-11-13 19:31:37

数组
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新   2024-11-11 12:12:04

io
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新   2024-11-05 20:45:31

io
中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程

中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程 ... [详细]

蜡笔小新   2024-11-03 13:52:28

io
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新   2024-10-30 09:47:50

数组
剑指Offer 44. 反转字符串中的单词

题目描述：牛客网新员工Fish每天早上都会拿着一本英文杂志，在本子上写下一些句子。他的同事Cat对这些句子非常感兴趣，但发现这些句子的单词顺序被反转了。例如，“student. a am I”实际上是“I am a student.”。Cat请求你帮助他恢复这些句子的正常顺序。 ... [详细]

蜡笔小新   2024-11-13 19:40:26

import
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新   2024-11-13 11:35:24

include
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新   2024-11-13 09:46:25

io
Vision Transformer (ViT) 和 DETR 深度解析

本文详细介绍了 Vision Transformer (ViT) 和 DETR 的工作原理，并提供了相关的代码实现和参考资料。通过观看教学视频和阅读博客，对 ViT 的全流程进行了详细的笔记整理，包括代码详解和关键概念的解释。 ... [详细]

蜡笔小新   2024-11-12 20:32:38

io
微信公众号推送模板40036问题

返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]

蜡笔小新   2024-11-12 16:31:32

io
SIoU Loss 的原理详解及代码实现分析

本文详细解析了 SIoU Loss 的原理及其在边界框回归任务中的优势，并通过代码实现对其性能进行了深入分析。SIoU Loss 作为一种改进的损失函数，能够更有效地优化目标检测模型的边界框回归效果，提升模型的准确性和鲁棒性。文中还提供了具体的代码示例，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新   2024-11-09 18:30:01

join
从零开始掌握PyTorch：生成对抗网络GAN进阶指南（第九篇）

本文将深入探讨生成对抗网络（GAN）在计算机视觉领域的应用。作为该领域的经典模型，GAN通过生成器和判别器的对抗训练，能够高效地生成高质量的图像。本文不仅回顾了GAN的基本原理，还将介绍一些最新的进展和技术优化方法，帮助读者全面掌握这一重要工具。 ... [详细]

蜡笔小新   2024-11-02 13:18:42

io
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新   2024-11-01 11:16:09

search
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新   2024-10-29 18:51:14

紫木之阁_229

这个家伙很懒，什么也没留下！

Tags | 热门标签

copy

spring

fetch

loops

actionscrip

header

function

sum

typescript

string

grid

tags

timezone

io

web3

search

triggers

hashset

vbscript

dagger

include

python2

import

input

timestamp

join

random

md5

text

数组

RankList | 热门文章

1谷歌dns服务器未响应,求问，新装的chrome打不开任何网页

2关于php类的编程，成员属性不可以是另一个类的实例化对象么？

3JAVA课程作业02

4java并发包小结（一）

5开发笔记:JSTL_XML标记库

6[置顶] 垃圾流氓软件的克星，制作绿色软件的神器

7404 not found是什么意思

8nginx配置gzip，压缩css，不压缩js

9wpf 多线程

10第 14 章生命周期

11关于Wireshark捕获TCP包的IP header checksum error问题

12秋季滋补元气必备六种常见中药

13VUE javascript 复杂列表显示值

14五、JavaScript之点击按钮调用相关JavaScript函数

15win7中go语言的安装方法