当前位置: 开发笔记 > 编程语言 > 正文

TransformerEncoderDecoer结构回顾

作者：保佑麻木_711 | 来源：互联网 | 2023-08-10 18:11

有关于Transformer、BERT及其各种变体的详细介绍请参照笔者另一篇博客：最火的几个全网络预训练模型梳理整合（BERT、ALBERT、XLNet

有关于Transformer、BERT及其各种变体的详细介绍请参照笔者另一篇博客&＃xff1a;最火的几个全网络预训练模型梳理整合&＃xff08;BERT、ALBERT、XLNet详解&＃xff09;。

本文基于对T5一文的理解&＃xff0c;再重新回顾一下有关于auto-encoder、auto-regressive等常见概念&＃xff0c;以及Transformer-based model的decoder结构。

1. Auto-encoder & Auto-regressive Language model

1.1 Auto-encoder

类似于BERT、ALBERT、RoBERTa这类&＃xff0c;encoder-only的language model。

优点&＃xff1a;

能够保证同时上下文。

缺点&＃xff1a;

token之间的条件独立假设。违反自然语言生成的直觉性。
encoder-only的时候&＃xff0c;预训练目标不能和很多生成任务一致。

而结合预训练的时候的objective&＃xff0c;像BERT这类Masked Language Model &＃xff08;MLM&＃xff09;又可以叫做denoised Auto-encoder&＃xff08;去噪自编码&＃xff09;。

1.2 Auto-regressive

类似于ELMO、GPT这类&＃xff0c;时序LM和decoder-only LM。

传统的时序Language Model &＃xff0c;类似于RNN、ELMO&＃xff0c;严格意义上不能叫做decoder&＃xff1b;只是后来出现了大量基于transformer的auto-regressive LM&＃xff0c;比方说GPT等&＃xff0c;它们都是用作文本生成直接解码输出结果。所以在”transformer时代“下&＃xff0c;Auto-regressive现在很多时候也被简单地理解为decoder-only。大致概念可以按下图理解&＃xff1a;
在这里插入图片描述

优点&＃xff1a;

无条件独立假设。
预训练可以直接做生成任务&＃xff0c;符合下游生成任务的objective。

缺点&＃xff1a;

不能同时双向编码信息&＃xff08;像ELMO这种是”伪双向“&＃xff0c;而且容易“透露答案”&＃xff09;。

而目前自然语言处理的auto-regressive结构&＃xff0c;大多基于Transformer&＃xff1b;像传统时序LM&＃xff0c;ELMO这种也已经快被遗忘了。

2. Transformer-based model 结构概览

如前文所述&＃xff0c;我们目前理解LM &＃xff08;autoencoder & autoregressive&＃xff09;&＃xff0c;大多是基于transformer的结构的。所以这一节暂时不讨论传统时序LM&＃xff0c;ELMO这种。

T5一文¹曾对Transformer的经典结构进行过概述&＃xff0c;主要分为以下三种&＃xff1a;

在这里插入图片描述

Encoder-only Language Model&＃xff1a;也即Auto-encoder。如第一节所述&＃xff0c;特点是&＃xff0c;能同时双向编码。代表有&＃xff1a;BERT、RoBERTa等。
Decoder-only Language Model&＃xff08;上图&＃xff0c;中&＃xff09;&＃xff1a;也即Auto Regressive &＃xff08;不包括传统的时序模型&＃xff09;&＃xff0c;可以简单理解成只有Decoder。特点是&＃xff0c;只能看到前文信息&＃xff08;因为decoder-only&＃xff09;。代表有&＃xff1a;GPT等。
Encoder-Decoder&＃xff1a;也即Auto-encoder &＃43; Auto regressive&＃xff08;上图&＃xff0c;左&＃xff09;。最原始的Transformer结构&＃xff0c;encoder和decoder都有self-attentino支持&＃xff0c;decoder还有额外的cross-attention用来结合encoder的输出信息。特点是&＃xff0c;encoder能够同时看到上下文双向信息&＃xff0c;而decoder只能看到前文信息。代表有&＃xff1a;BART、T5等&＃xff0c;这也使得这类模型特别适合生成式任务。
Prefix LM&＃xff1a;可以简单地理解为Encoder-Decoder结构的变形&＃xff08;上图&＃xff0c;右&＃xff09;。特点是&＃xff0c;一部分像 Encoder 一样&＃xff0c;能看到上下文信息&＃xff1b;而其余部分则和 Decoder 一样&＃xff0c;只能看到过去信息。代表有UniLM等·。

而Transformer结构&＃xff0c;如果想要实现所谓的&＃xff0c;“同时上下文信息”、“只看到前文信息”&＃xff0c;则需要依赖masked attention&＃xff0c;因为transformer的self-attention&＃xff0c;默认是全文计算attention&＃xff0c;想要部分不可见&＃xff0c;就得mask。这一点和传统时序LM不一样&＃xff0c;像RNN这种&＃xff0c;下一个token依赖于前文的hidden state&＃xff0c;天然地就只能看到前文信息。

下面就以Encoder-Decoder LM为例&＃xff0c;讲一下如何使用attention&＃xff0c;实现encoder看到全文&＃xff0c;而decoder只看到前文。

3. Encoder-Decoder的masked attention机制

这里以T5的代码为例。Transformer中的mask其实分为两种&＃xff1a;1&＃xff09;padding mask&＃xff1b;2&＃xff09;sequence mask。

3.1 Padding mask vs. Sequence mask

padding mask很简单&＃xff0c;就是我们常用的同一个batch里面&＃xff0c;把那些较短的样本&＃xff0c;补至最长的样本长度。因为这些填充的位置&＃xff0c;其实是没什么意义的&＃xff0c;所以Attention机制不应该把注意力放在这些位置上&＃xff0c;自然会在padding 位置进行attention mask。这个操作在encoder和decoder中都有用到&＃xff0c;只是一个简单的tensor批量运算操作。

sequence mask是为了使得Decoder只能看见上文信息。所以当前step之后的文本信息&＃xff0c;都会被mask掉。这个操作仅在decoder中使用。

总而言之&＃xff0c;上述两种mask方式中&＃xff0c;sequence mask是用于实现模型是否可见后文信息的关键。

3.2 Encoder

Encoder用的是全部的上下文信息&＃xff0c;所以这边的sequence mask全部为0&＃xff0c;形状为【batch_size, 1,1, seq_len】:
在这里插入图片描述

3.3 Decoder

Dncoder用的是前文的信息&＃xff0c;所以这边的attention mask是一个矩阵 &＃xff08;seq_len * seq_len&＃xff09;&＃xff0c;其中下三角全0&＃xff0c;迫使模型只能看到输入中的前文信息。如下图所示&＃xff0c;sequence mask的实际形状为【batch_size, 1, seq_len, seq_len】

在这里插入图片描述

3.4 Encoder 和Decoder的区别

这里最后再简单总结一下Encoder-Decoder结构的LM&＃xff0c;其Encoder和Decoder之间的区别。

首先&＃xff0c;decoder有三层&＃xff0c;sub-layer[1]计算self-attention&＃xff0c;sub-layer[2]计算cross- attention&＃xff0c;sub-layer[3]则是Linear层把最终hidden印射为vocab_size的logits。

所以decoder相较于encoder&＃xff0c;其大部分结构和计算都是一样的&＃xff0c;只不过多出这三个部分&＃xff1a;

sequence mask&＃xff1a;Decoder在计算sub-layer[1]的self-attention时&＃xff0c;有sequence mask机制&＃xff0c;确保只看到前文信息&＃xff1b;而Encoder没有&＃xff0c;计算self-attention时默认看到全文。
cross-attention&＃xff1a;Decoder的sub_layer[2]会计算cross-attention。具体来讲&＃xff0c;这一层会使用encoder的output hidden作为k,v&＃xff0c;而sub-layer[1]的self-attention的output作为q&＃xff0c;来进行self-attention的计算。这是为了让decoder充分融合encoder端的信息&＃xff0c;所以名为“cross-attention”。
linear&＃43;softmax&＃xff1a;最后sub_layer[3]会有一个映射层&＃xff0c;输出每个token的词表概率预测。

参考

[1] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. J. Mach. Learn. Res., 2020, 21(140): 1-67.&＃xff1b;paper
[2] 知乎——T5 模型&＃xff1a;NLP Text-to-Text 预训练模型超大规模探索
[3] 知乎——【精华】BERT&＃xff0c;Transformer&＃xff0c;Attention&＃xff08;中&＃xff09;
[4] CSDN——最火的几个全网络预训练模型梳理整合&＃xff08;BERT、ALBERT、XLNet详解&＃xff09;

推荐阅读

post
如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解

如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]

蜡笔小新 2024-11-01 19:30:32
java
com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例

com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-12 14:33:17
js
单元测试：使用mocha和should.js搭建nodejs的单元测试

2019独角兽企业重金招聘Python工程师标准BDD测试利器：mochashould.js众所周知对于任何一个项目来说，做好单元测试都是必不可少 ... [详细]

蜡笔小新 2024-11-12 11:08:57
client
优化后的标题：深入探讨网关安全：将微服务升级为OAuth2资源服务器的最佳实践

本文深入探讨了如何将微服务升级为OAuth2资源服务器，以订单服务为例，详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖，并配置Spring Security以实现对微服务的保护。通过这一过程，不仅增强了系统的安全性，还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践，包括如何配置OAuth2客户端和资源服务器，以及如何处理常见的安全问题和错误。 ... [详细]

蜡笔小新 2024-11-09 16:13:27
char
在Django中提交表单时遇到值错误问题如何解决？

在Django项目中，当用户提交包含多个选择目标的表单时，可能会遇到值错误问题。本文将探讨如何通过优化表单处理逻辑和验证机制来有效解决这一问题，确保表单数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-08 10:29:57
list
每日前端实战：148# 视频教程展示纯 CSS 实现按钮两侧滑入装饰元素的悬停效果

通过点击页面右侧的“预览”按钮，您可以直接在当前页面查看效果，或点击链接进入全屏预览模式。该视频教程展示了如何使用纯 CSS 实现按钮两侧滑入装饰元素的悬停效果。视频内容具有互动性，观众可以实时调整代码并观察变化。访问以下链接体验完整效果：https://codepen.io/comehope/pen/yRyOZr。 ... [详细]

蜡笔小新 2024-11-07 14:24:29
yaml
深入解析 Kubernetes 亲和性调度机制及其优化策略

在 Kubernetes 中，Pod 的调度通常由集群的自动调度策略决定，这些策略主要关注资源充足性和负载均衡。然而，在某些场景下，用户可能需要更精细地控制 Pod 的调度行为，例如将特定的服务（如 GitLab）部署到特定节点上，以提高性能或满足特定需求。本文深入解析了 Kubernetes 的亲和性调度机制，并探讨了多种优化策略，帮助用户实现更高效、更灵活的资源管理。 ... [详细]

蜡笔小新 2024-11-05 17:27:07
uri
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
sum
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
eval
BERT模型的应用与实践

本文探讨了BERT模型在自然语言处理领域的应用与实践。详细介绍了Transformers库（曾用名pytorch-transformers和pytorch-pretrained-bert）的使用方法，涵盖了从模型加载到微调的各个环节。此外，还分析了BERT在文本分类、情感分析和命名实体识别等任务中的性能表现，并讨论了其在实际项目中的优势和局限性。 ... [详细]

蜡笔小新 2024-11-03 13:20:53
eval
Unity3D中获取游戏对象的多种实用技巧与方法

在Unity3D中，获取游戏对象有多种实用技巧和方法。除了常见的序列化变量拖拽方式外，还可以使用 `GameObject.Find()` 方法通过对象名称或路径来直接获取游戏对象。此外，`Transform.Find()` 和 `GameObject.FindWithTag()` 也是常用的手段，分别适用于通过层级结构和标签来查找游戏对象。这些方法各有优劣，开发者可以根据具体需求选择最合适的方式。 ... [详细]

蜡笔小新 2024-11-01 15:34:00
eval
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
char
WinMain 函数详解及示例

本文详细介绍了 WinMain 函数的参数及其用途，并提供了一个具体的示例代码来解析 WinMain 函数的实现。 ... [详细]

蜡笔小新 2024-11-13 12:49:31
list
SQL 查询实体优化与实战技巧分享

SQL 查询实体优化与实战技巧分享 ... [详细]

蜡笔小新 2024-11-08 13:52:29
js
优化后的标题：利用模板消息进行高效信息推送

通过优化模板消息机制，本研究提出了一种高效的信息化推送方案。该方案利用获取的访问令牌（access token）和指定的模板ID，实现了精准且快速的信息推送，显著提升了用户体验和信息传递效率。具体实现中，通过调用相关API接口，确保了消息的准确性和及时性，为用户提供更加便捷的服务。 ... [详细]

蜡笔小新 2024-11-01 15:24:52

保佑麻木_711

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章