【NLP】Attention机制与实战（Tensoflow2.x）

作者：我是田小勇2702932553 | 来源：互联网 | 2023-09-14 22:41

Attention是一种用于提升基于RNN（LSTM或GRU）的EncoderDecoder模型效果的机制（Mechanism࿰

Attention是一种用于提升基于RNN&＃xff08;LSTM或GRU&＃xff09;的Encoder &＃43; Decoder模型效果的机制&＃xff08;Mechanism&＃xff09;&＃xff0c;一般称为Attention Mechanism。Attention给模型赋予了区分辨别的能力&＃xff0c;例如&＃xff0c;在机器翻译、语音识别应用中&＃xff0c;为句子中的每个词赋予不同的权重&＃xff0c;使神经网络模型的学习变得更加灵活&＃xff08;soft&＃xff09;&＃xff0c;同时Attention本身可以做为一种对齐关系&＃xff0c;解释翻译输入/输出句子之间的对齐关系&＃xff0c;解释模型到底学到了什么知识。
在这里插入图片描述
上图显示了在图像标注中的attention可视化。

Attention Mechanism与人类对外界事物的观察机制很类似&＃xff0c;当人类观察外界事物的时候&＃xff0c;一般不会把事物当成一个整体去看&＃xff0c;往往倾向于根据需要选择性的去获取被观察事物的某些重要部分&＃xff0c;比如我们看到一个人时&＃xff0c;往往先Attention到这个人的脸&＃xff0c;然后再把不同区域的信息组合起来&＃xff0c;形成一个对被观察事物的整体印象。因此&＃xff0c;Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重&＃xff0c;抽取出更加关键及重要的信息&＃xff0c;使模型做出更加准确的判断&＃xff0c;同时不会对模型的计算和存储带来更大的开销&＃xff0c;这也是Attention Mechanism应用如此广泛的原因。

一、Attention Mechanism原理

1.1 Attention Mechanism主要需要解决的问题

《Sequence to Sequence Learning with Neural Networks》介绍了一种基于RNN的Seq2Seq模型&＃xff0c;基于一个Encoder和一个Decoder来构建基于神经网络的End-to-End的机器翻译模型&＃xff0c;其中&＃xff0c;Encoder把输入X编码成一个固定长度的隐向量C&＃xff0c;Decoder基于隐向量C解码出目标输出Y。这是一个非常经典的序列到序列的模型&＃xff0c;但是却存在两个明显的问题&＃xff1a;
1、把输入X的所有信息有压缩到一个固定长度的隐向量C&＃xff0c;忽略了输入X的长度&＃xff0c;当输入句子长度很长&＃xff0c;特别是比训练集中最初的句子长度还长时&＃xff0c;模型的性能急剧下降。
2、把输入X编码成一个固定的长度&＃xff0c;对于句子中每个词都赋予相同的权重&＃xff0c;这样做是不合理的&＃xff0c;比如&＃xff0c;在机器翻译里&＃xff0c;对输入的每个词赋予相同权重&＃xff0c;这样做没有区分度&＃xff0c;往往使模型性能下降

同样的问题也存在于图像识别领域&＃xff0c;卷积神经网络CNN对输入的图像每个区域做相同的处理&＃xff0c;这样做没有区分度&＃xff0c;特别是当处理的图像尺寸非常大时&＃xff0c;问题更明显。因此&＃xff0c;2015年&＃xff0c;Dzmitry Bahdanau等人在《Neural machine translation by jointly learning to align and translate》提出了Attention Mechanism&＃xff0c;用于对输入X的不同部分赋予不同的权重&＃xff0c;进而实现软区分的目的。

1.2 Attention Mechanism原理

2014年在论文《Sequence to Sequence Learning with Neural Networks》中使用LSTM来搭建Seq2Seq模型。随后&＃xff0c;2015年&＃xff0c;Kyunghyun Cho等人在论文《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》提出了基于GRU的Seq2Seq模型。两篇文章所提出的Seq2Seq模型&＃xff0c;想要解决的主要问题是&＃xff0c;如何把机器翻译中&＃xff0c;变长的输入X映射到一个变长输出Y的问题&＃xff0c;主要结构如下&＃xff1a;
在这里插入图片描述

Encoder把一个变成的输入序列x1&＃xff0c;x2&＃xff0c;x3…xt编码成一个固定长度隐向量&＃xff08;背景向量&＃xff0c;或上下文向量context&＃xff09;c&＃xff0c;c有两个作用&＃xff1a;
1、做为初始向量初始化Decoder的模型&＃xff0c;做为decoder模型预测y1的初始向量。
2、做为背景向量&＃xff0c;指导y序列中每一个step的y的产出。Decoder主要基于背景向量c和上一步的输出yt-1解码得到该时刻t的输出yt&＃xff0c;直到碰到结束标志&＃xff08;&＃xff09;为止。

在上述的模型中&＃xff0c;Encoder-Decoder 框架将输入X都编码转化为语义表示 C&＃xff0c;这就导致翻译出来的序列的每一个字都是同权地考虑了输入中的所有的词。例如输入的英文句子是&＃xff1a;Tom chase Jerry&＃xff0c;目标的翻译结果是&＃xff1a;汤姆追逐杰瑞。在未考虑注意力机制的模型当中&＃xff0c;模型认为“汤姆 ”这个词的翻译受到 Tom&＃xff0c;chase 和 Jerry 这三个词的同权重的影响。但是实际上显然不应该是这样处理的&＃xff0c;“汤姆 ”这个词应该受到输入的 Tom 这个词的影响最大&＃xff0c;而其它输入的词的影响则应该是非常小的。显然&＃xff0c;在未考虑注意力机制的 Encoder-Decoder 模型中&＃xff0c;这种不同输入的重要程度并没有体现处理&＃xff0c;一般称这样的模型为分心模型。

而带有 Attention 机制的 Encoder-Decoder 模型则是要从序列中学习到每一个元素的重要程度&＃xff0c;然后按重要程度将元素合并。因此&＃xff0c;注意力机制可以看作是 Encoder 和 Decoder 之间的接口&＃xff0c;它向 Decoder 提供来自每个 Encoder 隐藏状态的信息。通过该设置&＃xff0c;模型能够选择性地关注输入序列的有用部分&＃xff0c;从而学习它们之间的“对齐”。这就表明&＃xff0c;在 Encoder 将输入的序列元素进行编码时&＃xff0c;得到的不在是一个固定的语义编码 C &＃xff0c;而是存在多个语义编码&＃xff0c;且不同的语义编码由不同的序列元素以不同的权重参数组合而成。一个简单地体现 Attention 机制运行的示意图如下&＃xff1a;
在这里插入图片描述
在 Attention 机制下&＃xff0c;语义编码 C 就不在是输入X序列的直接编码了&＃xff0c;而是各个元素按其重要程度加权求和得到的&＃xff0c;即&＃xff1a;
$Ci&＃61;∑j&＃61;0Txaijf(xj)C_i&＃61;\sum_{j&＃61;0}^{T_x}{a_{ij}f(x_j)}$
在公式&＃xff08;6&＃xff09;中&＃xff0c;参数 &＃x1d456; 表示时刻&＃xff0c; &＃x1d457;表示序列中的第 &＃x1d457;个元素&＃xff0c; &＃x1d447;&＃x1d465; 表示序列的长度&＃xff0c; &＃x1d453;(⋅) 表示对元素 &＃x1d465;&＃x1d457;的编码。&＃x1d44e;&＃x1d456;&＃x1d457;可以看作是一个概率&＃xff0c;反映了元素 ℎ&＃x1d457; 对 &＃x1d436;&＃x1d456;的重要性&＃xff0c;可以使用 softmax 来表示&＃xff1a;
$aij&＃61;exp(eij)∑k&＃61;1Txexp(eik)a_{ij}&＃61;\frac{exp(e_{ij})}{\sum_{k&＃61;1}^{T_x}exp(e_{ik})}$
这里 &＃x1d452;&＃x1d456;&＃x1d457;正是反映了待编码的元素和其它元素之间的匹配度&＃xff0c;当匹配度越高时&＃xff0c;说明该元素对其的影响越大&＃xff0c;则 &＃x1d44e;&＃x1d456;&＃x1d457;的值也就越大。

因此&＃xff0c;得出 &＃x1d44e;&＃x1d456;&＃x1d457;的过程如下图&＃xff1a;
在这里插入图片描述
其中&＃xff0c;ℎi 表示 Encoder 的转换函数&＃xff0c;&＃x1d439;(ℎ&＃x1d457;,&＃x1d43b;&＃x1d456;)表示预测与目标的匹配打分函数。将以上过程串联起来&＃xff0c;则注意力模型的结构如下图所示&＃xff1a;

① 对 RNN 的输出计算注意程度&＃xff0c;通过计算最终时刻的向量与任意 i 时刻向量的权重&＃xff0c;通过 softmax 计算出得到注意力偏向分数&＃xff0c;如果对某一个序列特别注意&＃xff0c;那么计算的偏向分数将会比较大。
② 计算 Encoder 中每个时刻的隐向量
③ 将各个时刻对于最后输出的注意力分数进行加权&＃xff0c;计算出每个时刻 i 向量应该赋予多少注意力
④ decoder 每个时刻都会将 ③ 部分的注意力权重输入到 Decoder 中&＃xff0c;此时 Decoder 中的输入有&＃xff1a;经过注意力加权的隐藏层向量&＃xff0c;Encoder 的输出向量&＃xff0c;以及 Decoder 上一时刻的隐向量
⑤ Decoder 通过不断迭代&＃xff0c;Decoder 可以输出最终翻译的序列。

二、 NMT领域Attention

几十年来&＃xff0c;统计机器翻译一直是占主导地位的翻译模型&＃xff0c;直到神经机器翻译 (NMT)的诞生。NMT是一种新兴的机器翻译方法&＃xff0c;它试图构建和训练单个大型的神经网络&＃xff0c;来读取输入文本并输出对应的翻译。
NMT的先驱是Kalchbrenner and Blunsom (2013)&＃xff0c; Sutskever et. al (2014)和Cho. et. al (2014b)&＃xff0c;其中比较熟悉的框架是来自Sutskever et. al.的序列到序列(seq2seq)模型。
在这里插入图片描述
上述seq2seq输入长度为4输出长度为3。
seq2seq的问题是&＃xff0c;解码器从编码器接收到的唯一信息是编码器的最后隐藏状态&＃xff08;图中的红色向量&＃xff09;这是一个向量表示&＃xff0c;类似于输入序列的数值摘要。在长文本中&＃xff0c;我们期望解码器只使用这一个向量表示(希望它“充分描述输入序列”)来输出翻译是不现实的。这可能会导致灾难性的遗忘。

如果我们做不到&＃xff0c;那么我们就不应该对解码器如此残忍。那么&＃xff0c;如果不光给一个向量表示&＃xff0c;同时还给解码器一个来自每个编码器时间步长的向量表示&＃xff0c;这样它就可以做出具有充足信息的翻译了&＃xff0c;这个想法怎么样&＃xff1f;让我们进入注意力机制。

注意力机制是编码器和解码器之间的接口&＃xff0c;它向解码器提供来自每个编码器隐藏状态的信息。通过这个设置&＃xff0c;模型能够选择性地关注输入序列的有用部分&＃xff0c;从而学习它们之间的“对齐”。这有助于模型有效地处理长输入语句。
在这里插入图片描述
有两种注意类型&＃xff0c;使用所有编码器隐藏状态的注意力类型也称为“全局注意力”。相反&＃xff0c;“局部注意力”只使用编码器隐藏状态的子集。由于本文的范围是全局attention&＃xff0c;因此本文中提到的“attention”均被视为“全局attention”。

引入 Attention 的 Encoder-Decoder 框架下&＃xff0c;完成机器翻译任务的大致流程如下&＃xff1a;
在这里插入图片描述

注意力集中在不同的单词上&＃xff0c;给每个单词打分。然后&＃xff0c;使用softmax之后分数&＃xff0c;我们使用编码器隐藏状态的加权和来聚合编码器隐藏状态&＃xff0c;得到上下文向量。

三、主要代码实现

3.1 Encoder

class Encoder(tf.keras.Model):def __init__(self, hidden_size&＃61;1024, max_sequence_len&＃61;30, batch_size&＃61;batch_size, embedding_dim&＃61;256, vocab_size&＃61;5000):super(Encoder, self).__init__()self.embedding_dim &＃61; embedding_dimself.vocab_size &＃61; vocab_sizeself.max_sequence_len &＃61; max_sequence_lenself.hidden_size &＃61; hidden_sizeself.batch_size &＃61; batch_sizeself.embedding_layer &＃61; Embedding(input_dim&＃61;self.vocab_size, output_dim&＃61;self.embedding_dim)self.GRU_1 &＃61; GRU(units&＃61;hidden_size, return_sequences&＃61;True)self.GRU_2 &＃61; GRU(units&＃61;hidden_size,return_sequences&＃61;True, return_state&＃61;True)def initial_hidden_state(self):return tf.zeros(shape&＃61;(self.batch_size, self.hidden_size))def call(self, x, initial_state, training&＃61;False):x &＃61; self.embedding_layer(x)x &＃61; self.GRU_1(x, initial_state&＃61;initial_state)x, hidden_state &＃61; self.GRU_2(x)return x, hidden_state

3.2 Attention

class Attention(tf.keras.Model):def __init__(self, hidden_size&＃61;256):super(Attention, self).__init__()self.fc1 &＃61; Dense(units&＃61;hidden_size)self.fc2 &＃61; Dense(units&＃61;hidden_size)self.fc3 &＃61; Dense(units&＃61;1)def call(self, encoder_output, hidden_state, training&＃61;False):&＃39;&＃39;&＃39;hidden_state : h(t-1)&＃39;&＃39;&＃39;y_hidden_state &＃61; tf.expand_dims(hidden_state, axis&＃61;1)y_hidden_state &＃61; self.fc1(y_hidden_state)y_enc_out &＃61; self.fc2(encoder_output)#get a_ijy &＃61; tf.keras.backend.tanh(y_enc_out &＃43; y_hidden_state)attention_score &＃61; self.fc3(y)attention_weights &＃61; tf.keras.backend.softmax(attention_score, axis&＃61;1)#get c_icontext_vector &＃61; tf.multiply(encoder_output, attention_weights)context_vector &＃61; tf.reduce_sum(context_vector, axis&＃61;1)return context_vector, attention_weights

3.3 Decoder

class Decoder(tf.keras.Model):def __init__(self, hidden_size&＃61;1024, max_sequence_len&＃61;30, batch_size&＃61;batch_size, embedding_dim&＃61;256, vocab_size&＃61;5000):super(Decoder, self).__init__()self.embedding_dim &＃61; embedding_dimself.vocab_size &＃61; vocab_sizeself.max_sequence_len &＃61; max_sequence_lenself.hidden_size &＃61; hidden_sizeself.batch_size &＃61; batch_sizeself.embedding_layer &＃61; Embedding(input_dim&＃61;self.vocab_size, output_dim&＃61;self.embedding_dim)self.GRU &＃61; GRU(units&＃61;hidden_size,return_sequences&＃61;True, return_state&＃61;True)self.attention &＃61; Attention(hidden_size&＃61;self.hidden_size)self.fc &＃61; Dense(units&＃61;self.vocab_size)def initial_hidden_state(self):return tf.zeros(shape&＃61;(self.batch_size, self.hidden_size))def call(self, x, encoder_output, hidden_state, training&＃61;False):x &＃61; self.embedding_layer(x)context_vector, attention_weights &＃61; self.attention(encoder_output, hidden_state, training&＃61;training)contect_vector &＃61; tf.expand_dims(context_vector, axis&＃61;1)x &＃61; tf.concat([x, contect_vector], axis&＃61;-1)x, curr_hidden_state &＃61; self.GRU(x)x &＃61; tf.reshape(x, shape&＃61;[self.batch_size, -1])x &＃61; self.fc(x)return x, curr_hidden_state, attention_weights

最终结果&＃xff1a;
在这里插入图片描述

完整代码&＃xff1a;https://github.com/LIANGQINGYUAN/NLP-Notebook
欢迎star&＃xff5e;

参考链接&＃xff1a;
模型汇总24 - 深度学习中Attention Mechanism详细介绍&＃xff1a;原理、分类及应用&＃xff1a;
https://zhuanlan.zhihu.com/p/31547842
浅谈 Attention 机制的理解&＃xff1a;https://www.cnblogs.com/ydcode/p/11038064.html
Attention可视化&＃xff1a;https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/
Intuitive Understanding of Attention Mechanism in Deep Learning&＃xff1a;
https://towardsdatascience.com/intuitive-understanding-of-attention-mechanism-in-deep-learning-6c9482aecf4f
kaggle翻译例子1&＃xff1a;https://www.kaggle.com/nikhilxavier/english-to-hindi-machine-translation-attention
kaggle翻译例子2&＃xff1a;https://www.kaggle.com/harishreddy18/english-to-french-translation
Go from the basics - Attention mechanism, transformers, BERT&＃xff1a;
https://www.kaggle.com/c/tensorflow2-question-answering/discussion/115676#711847
机器翻译语料库&＃xff1a;http://www.manythings.org/anki/
Transformer 系列一&＃xff1a;https://zhuanlan.zhihu.com/p/109585084

推荐阅读

ip
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
eval
TensorFlow 2.0 实战：多层感知机（MLP）网络入门

本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机（MLP）网络，涵盖回归和分类任务。通过具体示例和代码实现，帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]

蜡笔小新 2024-12-22 19:56:15
ip
Day4 作业

#print(34or4 ... [详细]

蜡笔小新 2024-12-21 20:41:21
php
贪心与优先队列：最小化加法代价问题

本题要求在一组数中反复取出两个数相加，并将结果放回数组中，最终求出最小的总加法代价。这是一个经典的哈夫曼编码问题，利用贪心算法可以有效地解决。 ... [详细]

蜡笔小新 2024-12-20 23:20:38
instance
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
instance
当unique验证运到图片上传时

2019独角兽企业重金招聘Python工程师标准model：public$imageFile;publicfunctionrules(){return[[[na ... [详细]

蜡笔小新 2024-12-20 10:19:12
ip
724. 寻找数组的中轴索引

给定一个整数数组 `nums`，编写一个方法返回该数组的“中轴”索引。定义中轴索引为该索引左侧所有数字之和等于右侧所有数字之和的索引。如果不存在这样的索引，则返回 -1。如果有多个中轴索引，返回最左边的一个。 ... [详细]

蜡笔小新 2024-12-19 19:51:53
ip
检测数组中的重复元素

本题要求在一个长度为n的数组中找出任意一个重复的数字。数组中的所有数字都在0到n-1之间，但具体哪些数字重复以及重复次数未知。 ... [详细]

蜡笔小新 2024-12-22 13:24:46
request
深入解析SpringMVC核心组件：DispatcherServlet的工作原理

本文详细探讨了SpringMVC的核心组件——DispatcherServlet的运作机制，旨在帮助有一定Java和Spring基础的开发人员理解HTTP请求是如何被映射到Controller并执行的。文章将解答以下问题：1. HTTP请求如何映射到Controller；2. Controller是如何被执行的。 ... [详细]

蜡笔小新 2024-12-21 18:50:52
php
HDU 1536: S-Nim 游戏中的 SG 博弈分析

探讨 HDU 1536 题目，即 S-Nim 游戏的博弈策略。通过 SG 函数分析游戏胜负的关键，并介绍如何编程实现解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:26:33
function
Python 中 Pmagick 的木炭滤镜方法

本文介绍了 Python 的 Pmagick 库中用于图像处理的木炭滤镜方法，探讨其功能和用法，并通过实例演示如何应用该方法。 ... [详细]

蜡笔小新 2024-12-21 13:44:30
php
解决Classic ASP与PHP HMAC_SHA256哈希结果不一致的问题

本文探讨了如何在Classic ASP中实现与PHP的hash_hmac('SHA256', $message, pack('H*', $secret))函数等效的哈希生成方法。通过分析不同实现方式及其产生的差异，提供了一种使用Microsoft .NET Framework的解决方案。 ... [详细]

蜡笔小新 2024-12-21 10:38:09
php
Java多线程实现：从1到100分段求和并汇总结果

本文介绍如何使用Java编写一个程序，通过10个线程分别计算不同区间的和，并最终汇总所有线程的结果。每个线程负责计算一段连续的整数之和，最后将所有线程的结果相加。 ... [详细]

蜡笔小新 2024-12-21 10:32:48
request
ChatGPT：内容创造者还是非法搬运工？

探讨ChatGPT在法律和版权方面的潜在风险及影响，分析其作为内容创造工具的合法性和合规性。 ... [详细]

蜡笔小新 2024-12-21 10:13:36
request
主调|大侠_重温C++

主调|大侠_重温C++ ... [详细]

蜡笔小新 2024-12-20 20:43:56

我是田小勇2702932553

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章