XLNet详解

作者：mobiledu2502881513 | 来源：互联网 | 2023-10-14 16:20

2020-01-0413:40:02BERT训练时将部分单词mask起来，使模型能够利用句子双向的信息，在很多NLU任务上取得很好的效果。但是BERT忽

2020-01-04 13:40:02

BERT 训练时将部分单词 mask 起来&＃xff0c;使模型能够利用句子双向的信息&＃xff0c;在很多 NLU 任务上取得很好的效果。但是 BERT 忽略了 mask 单词之间的关系&＃xff0c;且微调过程与预训练过程不一致 (微调时没有 mask 的单词)。XLNet 采用了 PLM (Permutation Language Model) &＃xff0c;将句子随机排列&＃xff0c;然后用自回归的方法训练&＃xff0c;从而获得双向信息并且可以学习 token 之间的依赖关系。另外 XLNet 使用了 Transformer-XL&＃xff0c;使用了更广阔的上下文信息。

1.前言

XLNet 论文中首先提出了一种比较有意思的观点&＃xff0c;将当前预训练模型分为了两类 AR (Auto Regression&＃xff0c;自回归) 和 AE (Auto Encoder&＃xff0c;自编码器)。

GPT 就是一种 AR 方法&＃xff0c;不断地使用当前得到的信息预测下一个输出 (自回归)。而 BERT 是一种 AE 方法&＃xff0c;将输入句子的某些单词 mask 掉&＃xff0c;然后再通过 BERT 还原数据&＃xff0c;这一过程类似去噪自编码器 (Denoising AutoEncoder&＃xff0c;DAE)。不熟悉 GPT 和 BERT 的童鞋可以参考前面的文章&＃xff0c;《OpenAI GPT 和 GPT2 模型详解》和《彻底理解 Google BERT 模型》。

AR 的方法可以更好地学习 token 之间的依赖关系&＃xff0c;而 AE 的方法可以更好地利用深层的双向信息。因此 XLNet 希望将 AR 和 AE 两种方法的优点结合起来&＃xff0c;XLNet 使用了 Permutation Language Model (PLM) 实现这一目的。

Permutation 指排列组合的意思&＃xff0c;XLNet 将句子中的 token 随机排列&＃xff0c;然后采用 AR 的方式预测末尾的几个 token。这样一来&＃xff0c;在预测 token 的时候就可以同时利用该 token 双向的信息&＃xff0c;并且能学到 token 间的依赖&＃xff0c;如下图所示。

XLNet 详解

XLNet Permutation 和预测

接下来介绍 XLNet 中的实现细节&＃xff0c;其中 XLNet 为了实现 PLM&＃xff0c;提出了 Two-Stream Self-Attention 和 Partial Prediction。另外 XLNet 还使用了 Transformer-XL 中的 Segment Recurrence Mechanism 和 Relative Positional Encoding&＃xff0c;不熟悉 Transformer-XL 的童鞋可以参考前面的文章&＃xff0c;《Transformer-XL 语言模型》。

2.Permutation Language Model

PLM (Permutation Language Model) 是 XLNet 的核心思想&＃xff0c;首先将句子的 token 随机排列&＃xff0c;然后采用 AR 的方式预测句子末尾的单词&＃xff0c;这样 XLNet 即可同时拥有 AE 和 AR 的优势。

2.1 PLM 介绍

XLNet 中通过 Attention Mask 实现 PLM&＃xff0c;而无需真正修改句子 token 的顺序。例如原来的句子是 [1,2,3,4]&＃xff0c;如果随机生成的序列时 [3,2,4,1]&＃xff0c;则输入到 XLNet 的句子仍然是 [1,2,3,4]&＃xff0c;但是掩码需要修改成下图。

XLNet 详解

PLM 例子

图中的掩码矩阵&＃xff0c;红色表示不遮掩&＃xff0c;白色表示遮掩。第 1 行表示 token 1 的掩码&＃xff0c;可以看到&＃xff0c;1 是句子的最后一个 token&＃xff0c;因此可以看到之前的所有 token (3,2,4)。3 是句子的第一个 token&＃xff0c;看不到句子的任何信息&＃xff0c;因此第 3 行都是白色的 (表示遮掩)。

2.2 Two-Stream Self-Attention

Two-Stream 概念

XLNet 打乱了句子的顺序&＃xff0c;这时在预测的时候 token 的位置信息会非常重要&＃xff0c;同时在预测的时候也必须将 token 的内容信息遮掩起来 (否则输入包含了要预测的内容信息&＃xff0c;模型就无法学到知识)。也就是说 XLNet 需要看到 token 的位置信息&＃xff0c;但是又不能看到 token 的内容信息&＃xff0c;因此 XLNet 采用了两个 Stream 实现这一目的&＃xff1a;

Query Stream&＃xff0c;对于每一个 token&＃xff0c;其对应的 Query Stream 只包含了该 token 的位置信息&＃xff0c;注意是 token 在原始句子的位置信息&＃xff0c;不是重新排列的位置信息。
Content Stream&＃xff0c;对于每一个 token&＃xff0c;其对应的 Content Stream 包含了该 token 的内容信息。

Query Stream 计算

Query Stream 用 g 表示&＃xff0c;Content Stream 用 h 表示&＃xff0c;使用 Query Stream 对要预测的位置进行预测的时候&＃xff0c;Q (Query) 向量是用 g 计算得到的&＃xff0c;包含该位置的位置信息&＃xff0c;而 K (Key) 和 V (Value) 是用 h 计算的&＃xff0c;包含其他 token 的内容信息。下图展示了如何通过当前层的 g计算下一层 g 的过程&＃xff0c;图中的排列是 [3,2,4,1]&＃xff0c;计算的 token 是 1。

XLNet 详解

Query Stream 计算方式

可以看到在计算 token 1 的 Q 向量时&＃xff0c;只使用了 token 1 的 Query Stream g&＃xff0c;即模型只得到 token 1 的位置信息。而向量 K&＃xff0c;V 使用 token 3, 2, 4 进行计算&＃xff0c;所以模型可以得到 token 3, 2, 4 的内容信息。因为 token 1 是排列 [3,2,4,1] 的最后一位。这一个过程的掩码矩阵和上一节的是一样的 &＃xff0c;对角线上都为白色&＃xff0c;即遮掩当前预测位置的内容信息 h。

XLNet 详解

Query Stream 的 Mask 矩阵

Content Stream 计算

Content Stream 包含了 token 的内容信息&＃xff0c;因为 XLNet 的层数很多&＃xff0c;需要将 token 的内容传递到下一层。这一层的 Q, K, V 都是利用 h 计算的。Content Stream 的计算如下图所示。

XLNet 详解

Content Stream 计算方式

可以看到&＃xff0c;在计算下一层的 h1 时&＃xff0c;也会利用 token 1 当前的内容信息&＃xff0c;这样就可以将 token 的内容传递到下一层&＃xff0c;但是注意 XLNet 在预测时只是用 g (Query Stream)。计算 Content Stream 时候的掩码矩阵如下图所示。

XLNet 详解

Content Stream 的 Mask 矩阵

和 Query Stream 的掩码矩阵区别在于对角线&＃xff0c;Content Stream 不遮掩对角线&＃xff0c;使得当前 token 的信息可以传递到下一层。

Query Stream 和 Content Stream 组合

XLNet 将 Query Stream 和 Content Stream 组合在一起&＃xff0c;如下图所示。

XLNet 详解

XLNet 整体结构

图中最下面的一层是输入层&＃xff0c;其中 e(x) 是单词的词向量&＃xff0c;表示输入的 Content Stream&＃xff0c;而 w 表示输入的位置信息&＃xff0c;即 Query Stream。

2.3 Partial Prediction

XLNet 将句子重新排列&＃xff0c;然后根据排列后的顺序使用 AR 方式预测&＃xff0c;但是由于句子是随机排列的&＃xff0c;会导致优化比较困难且收敛速度慢。因此 XLNet 采用了 Partial Prediction (部分预测) 的方式进行训练&＃xff0c;对于排列后的句子&＃xff0c;只预测句子末尾的 1/K 个 token。

例如 K&＃61;4&＃xff0c;就是只预测最后 1/4 的 token。给定句子 [1,2,3,4,5,6,7,8] 和一种随机排列 [2,8,3,4,5,1,7,6]&＃xff0c;则只预测 7 和 6。论文中训练 XLNet-Large 时使用的 K 为 6&＃xff0c;大约是预测末尾 14.3% 的 token。

3.XLNet 优化技巧

3.1 Transformer-XL

XLNet 使用了 Transformer-XL 中的 Segment Recurrence Mechanism (段循环) 和 Relative Positional Encoding (相对位置编码) 进行优化。

Segment Recurrence Mechanism 段循环的机制会将上一段文本输出的信息保存下来&＃xff0c;用于当前文本的计算&＃xff0c;使模型可以拥有更广阔的上下文信息。

在引入上一段信息后&＃xff0c;可能会有两个 token 拥有相同的位置信息&＃xff0c;例如上一段的第一个单词和当前段的第一个单词位置信息都是一样的。因此 Transformer-XL 采用了 Relative Positional Encoding (相对位置编码) &＃xff0c;不使用固定的位置&＃xff0c;而是采用单词之间的相对位置进行编码。在之前的文章《Transformer-XL 语言模型》中有比较详细的介绍&＃xff0c;感兴趣的童鞋可以参考一下。

XLNet 使用了 Transformer-XL 后如下图所示。mem 表示的就是前一个 XLNet 段的内容信息&＃xff0c;而 XLNet 中输入的 Query Stream 为 w&＃xff0c;保存位置信息&＃xff0c;采用的是 Relative Positional Encoding。

XLNet 详解

XLNet 使用 Transformer-XL 优化

3.2 Relative Segment Encodings

XLNet 希望像 BERT 一样采用 [A, SEP, B, SEP, CLS] 的形式处理句子任务&＃xff0c;在 BERT 中有两个表征向量 EA 和 EB 分别表示句子 A 和 B。但是 XLNet 采用 Transformer-XL 的段循环机制后会出现问题&＃xff0c;两个段都有句子 A 和 B&＃xff0c;则两个句子 A 属于不同的段&＃xff0c;但是却会有相同的 Segment 向量。

XLNet 提出了 Relative Segment Encodings&＃xff0c;对于每一个 attention head 都添加 3 个可训练的向量 s&＃43;, s-, b&＃xff0c;然后利用以下公式计算 attention score。

XLNet 详解

Relative Segment Encodings

其中 q 就是 Query 向量&＃xff0c;这个计算得到的 attention score 会加到原来的 attention score 上&＃xff0c;再计算 softmax。Relative Segment Encodings 加上了一个偏置向量 b&＃xff0c;同时 Relative Segment Encodings 也可以用于一些超过两段输入句子的任务上。

4.总结

XLNet 的核心思想是 PLM&＃xff0c;排列原来的句子&＃xff0c;然后预测末尾的单词。这样可以学习到单词之间的依赖关系&＃xff0c;而且可以利用 token 前后向的信息。

XLNet PLM 的实现需要用到 Two-Stream Self-Attention&＃xff0c;包含两个 Stream&＃xff0c;Query Stream 用于预测&＃xff0c;只包含当前位置的位置信息。而 Content Stream 保存了 token 的内容。

XLNet 还使用了 Transformer-XL 的优化方式。

5.参考文献

1.XLNet: Generalized Autoregressive Pretraining for Language Understanding

推荐阅读

get
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
get
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
get
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
get
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
hook
Windows 10 系统中禁用 F1 至 F12 功能键的方法

在 Windows 10 中，F1 至 F12 键默认设置为快捷功能键。本文将介绍几种有效方法来禁用这些快捷键，并恢复其标准功能键的作用。请注意，部分笔记本电脑的快捷键可能无法完全关闭。 ... [详细]

蜡笔小新 2024-12-28 09:13:44
export
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
export
基因组浏览器中的Wig格式解析

本文详细介绍了Wiggle（Wig）格式及其在基因组浏览器中的应用，涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时，还提供了关于数据值和自定义参数的补充信息。 ... [详细]

蜡笔小新 2024-12-26 11:21:09
export
深入解析 Vue 的 Transition 组件与第三方动画库的结合使用

本文详细介绍了 Vue 中的 Transition 组件，探讨其内置类名机制、触发时机及自定义类名的应用。同时，结合 animate.css 和 GSAP 等第三方库，展示了如何实现复杂的动画效果。 ... [详细]

蜡笔小新 2024-12-24 15:37:16
export
深入剖析 DEX 赛道：从 60 大头部项目看五大趋势

本文通过分析 60 大头部去中心化交易平台（DEX），揭示了当前 DEX 赛道的五大发展趋势，包括市场集中度、跨链协议、AMM+NFT 结合、新公链崛起以及稳定币和衍生品交易的增长潜力。 ... [详细]

蜡笔小新 2024-12-24 14:51:19
export
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
get
如何在 Angular 6 HttpClient 中获取响应头

本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头，包括代码示例和常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-22 15:33:55
get
Mathematica 12.3.1 中英文版正式发布，附新功能介绍

历经三十年的开发，Mathematica 已成为技术计算领域的标杆，为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]

蜡笔小新 2024-12-22 09:34:59
get
初探七牛云存储：实现多服务器图片共享

为了解决不同服务器间共享图片的需求，我们最初考虑建立一个FTP图片服务器。然而，考虑到项目是一个简单的CMS系统，为了简化流程，团队决定探索七牛云存储的解决方案。本文将详细介绍使用七牛云存储的过程和心得。 ... [详细]

蜡笔小新 2024-12-21 13:15:50
const
ChatGPT：内容创造者还是非法搬运工？

探讨ChatGPT在法律和版权方面的潜在风险及影响，分析其作为内容创造工具的合法性和合规性。 ... [详细]

蜡笔小新 2024-12-21 10:13:36
get
Django Token 认证详解与 HTTP 401、403 状态码的区别

本文详细介绍了如何在 Django 中配置和使用 Token 认证，并解释了 HTTP 401 和 HTTP 403 状态码的区别。通过具体的代码示例，帮助开发者理解认证机制及权限控制。 ... [详细]

蜡笔小新 2024-12-20 15:43:37

mobiledu2502881513

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章