当前位置: 开发笔记 > 编程语言 > 正文

52自然语言处理NLPseq2seqattention的提出计算方式及pytorch实现

作者：wb91cmy | 来源：互联网 | 2023-08-16 17:57

1、seq2seqattention的论文出处主要是阅读经典论文《NeuralMachineTranslationbyJointlyLearningtoAlignandTrans

1、seq2seq attention的论文出处

主要是阅读经典论文《Neural Machine Translation by Jointly Learning to Align and Translate》https://arxiv.org/pdf/1409.0473.pdf

这篇论文中机器翻译采用seq2seq的encoder-decoder模型构建&＃xff0c;将输入句子encoding成一个固定长度的向量&＃xff0c;然后输入到decoder解码生成译文。

attention机制引入要解决的问题

encoder得到的固定向量直接送入decoder&＃xff0c;不利于

&＃xff08;1&＃xff09;较长句子的信息传递 &＃xff08;2&＃xff09;提取decoder中目标单词需要关注原文中的语义信息

2、seq2seq decoder的构成

直接截取一下论文中的讲法吧&＃xff0c;如下图&＃xff1a;

式子&＃xff08;4&＃xff09;的意思就是解码器生成出来的每个token&＃xff0c;由

1、 $y_{i-1}$ 就是前一个token的特征向量&＃xff1b;

2、 $s_{i}$ 就是当前的隐状态&＃xff0c;这里的 $s_{i}$ 也是通过RNN得到的&＃xff0c;可以把 $y_{i-1}$ 和 $c_{i}$ 看成这一步RNN的输入特征向量&＃xff1b;

3、 $c_{i}$ 就是上下文的特征&＃xff0c;没有用attention之前就是encoder得到的固定向量。现在用了attention机制这篇文章中经典的attention机制就是&＃xff08;5&＃xff09;式得到的。

关于 $c_{i}$ 的计算中&＃xff0c;简单来说就是encoder中各层隐状态 $h_{j}$ 与decoder的隐状态 $s_{i-1}$ 做相似度&＃xff08;可以用一个MLP来实现等&＃xff0c;下文再具体说明各种算法&＃xff09;&＃xff0c;然后求softmax得到权重系数 $\alpha _{ij}$ &＃xff0c;然后做加权和。当然这只是一种做法&＃xff0c;实际怎么做可以有别的做法。

3、seq2seq attention的经典形式

Effective Approaches to Attention-based Neural Machine Translation 论文中&＃xff0c;将注意力机制大致分为了全局&＃xff08;global&＃xff09;注意力和局部&＃xff08;local&＃xff09;注意力。

全局注意力指的是注意力分布在所有encoder得到隐状态中&＃xff1b;局部注意力指注意力只存在于一些隐状态中。例如&＃xff0c;图像的average pooling可视为全局注意力&＃xff1b;max pooling可视为局部注意力

论文链接&＃xff1a;https://arxiv.org/abs/1508.04025

3.1 global attention

直接上论文中的内容好了&＃xff0c;这边global attention的意思和上一篇论文的一样&＃xff0c;只是论文中用的符号不一样&＃xff0c;应该一看就能知道&＃xff0c;实际一个意思。

这里decoder的target hidden和encoder中的source hidden的score怎么算呢&＃xff1f;文中介绍三种算法&＃xff1a;

这里把score称为基于内容的函数&＃xff0c;原因是这里的计算只考虑了隐状态间内容的相关性&＃xff0c;并不包含时序信息。

&＃xff08;1&＃xff09;dot&＃xff1a;transformer中的Q、K就是用dot计算

&＃xff08;2&＃xff09;general&＃xff1a;俗称乘法注意力机制

&＃xff08;3&＃xff09;concat&＃xff1a;俗称加法注意力机制

当然文中也提到了location based的global attention不过&＃xff0c;似乎&＃xff08;不太确定可能本人孤陋寡闻基本没用过&＃xff09;是历史遗留的产物&＃xff0c;大家可以自行阅读。

3.2 local attention

此处&＃xff0c;出于这篇文章的完整性&＃xff0c;提及一下文章还提到了local attention。提出原因是global attention的计算量大。以机器翻译任务为例&＃xff0c;如果原文和译文语种差异较大采用global attention&＃xff0c;但如果句法上对应较好&＃xff0c;可以采用local attention尝试。

4、pytorch实现Seq2Seq中dot型attention的注意力

这里实现一个3.1中dot型的注意力&＃xff0c;输入为encoder的各层隐状态encoder_states以及当前的decoder隐状态decoder_state_t&＃xff0c;输出为注意力加权后的上下文状态c

class Seq2SeqAttentionMechanism(nn.Module):def __init__(self):super(Seq2SeqAttentionMechanism, self).__init__()def forward(self, decoder_state_t, encoder_states):bs, source_length, hidden_size &＃61; encoder_states.shapedecoder_state_t &＃61; decoder_state_t.unsqueeze(1)decoder_state_t &＃61; torch.tile(decoder_state_t, dims &＃61; (1, source_length, 1))score &＃61; torch.sum(decoder_state_t * encoder_states, dim &＃61; -1) #[bs, source_length]attn_prob &＃61; F.softmax(score, dim &＃61; -1) #[bs, source_length]context &＃61; torch.sum(attn_prob.unsqueeze(-1) * encoder_states, 1) #[bs, hidden_size]return attn_prob, context

推荐阅读

get
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
sum
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
sum
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
join
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
install
【疑难杂症】allennlp安装报错：Installing build dependencies ... error

背景：配置PURE的算法环境，安装allennlp0.9.0（pipinstallallennlp0.9.0）报错ÿ ... [详细]

蜡笔小新 2023-10-17 16:20:30
join
语义分割系列3SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络 ... [详细]

蜡笔小新 2023-10-17 10:14:20
sum
动态多点××× 单云双HUB

动态多点是一个高扩展的IPSEC解决方案传统的ipsecS2S有如下劣势1.中心站点配置量大，无论是采用经典ipsec***还是采用greoveripsec多一个分支 ... [详细]

蜡笔小新 2023-10-17 09:16:50
object
Unity 3D 常用 JS脚本

一、命名规范1、变量--首写是小写字母。变量用来储存游戏状态中的任何信息。2、函数--首写是大写字母。函数是一个代码块，只需要写一次，在需要时候可以被再 ... [详细]

蜡笔小新 2023-10-17 01:28:14
sum
pytorch Dropout过拟合的操作

这篇文章主要介绍了pytorchDropout过拟合的操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完 ... [详细]

蜡笔小新 2023-10-16 19:35:56
sum
都会|可能会_###haohaohao###图神经网络之神器——PyTorch Geometric 上手 & 实战

篇首语：本文由编程笔记#小编为大家整理，主要介绍了###haohaohao###图神经网络之神器——PyTorchGeometric上手&实战相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 18:30:35
web
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07
web
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
header
使用python自动化下载pdf文档

使用python输入PDF编号自动下载freepatentsonline.com的文档#!usrbinenvpython3#codingutf-8#Version:python3. ... [详细]

蜡笔小新 2023-10-17 12:29:08
sum
开发笔记:10分钟了解Android的事件分发

篇首语：本文由编程笔记#小编为大家整理，主要介绍了10分钟了解Android的事件分发相关的知识，希望对你有一定的参考价值。什么是事件分发？大家 ... [详细]

蜡笔小新 2023-10-17 11:22:42
web
这么多流媒体服务器？你怎么技术选型？

在上一篇文章里我们介绍了我们介绍了MCU和SFU的优缺点，webRTC通信方案SFU和MCU的区别？下面就来探讨下常见的SFU开源解决方案，当然，你也可以自己实现SFU流媒体服务器 ... [详细]

蜡笔小新 2023-10-16 13:57:27

wb91cmy

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章