自回归与非自回归模型如何融合？预训练模型BANG提供可能解决方案

作者：愤怒的黑皮_165 | 来源：互联网 | 2024-10-27 15:09

近年来，预训练技术的快速发展显著提升了自然语言生成的性能。然而，自回归模型和非自回归模型在生成质量和效率上各有优劣。微软研究院提出了一种新的预训练模型BANG，通过巧妙地结合两者的优点，提供了一种有效的解决方案。该模型不仅在生成质量上表现出色，还在推理速度上实现了显著提升，为自然语言生成任务带来了新的可能性。

作者 | 齐炜祯、宫叶云、段楠

来源 | 微软研究院AI头条

头图 | 下载于视觉中国

编者按&＃xff1a;近两年&＃xff0c;预训练技术的发展极大地提高了自然语言生成的效果&＃xff0c;但随着数据量和模型大小的增加&＃xff0c;模型在使用时的推断耗时也随之变大。为了降低自回归生成的时延&＃xff0c;并行预测目标语句所有单词的非自回归模型被提出。然而&＃xff0c;非自回归和半非自回归的依赖关系学习和生成难度较大&＃xff0c;它们的生成质量往往弱于自回归模型。针对上述问题&＃xff0c;微软亚洲研究院的研究员们提出了新的自然语言生成预训练 BANG。

近两年&＃xff0c;预训练技术为自然语言生成的效果带来了极大的改善。基于 Transformer&＃xff0c;更大的模型&＃xff0c;更大的预训练语料往往可以在下游任务上提供更好的结果。与此同时&＃xff0c;模型在使用时的推断耗时也随之变大。这些预训练工作往往针对自回归语言生成模型设计&＃xff0c;自回归每次会使用已生成的序列作为已知信息预测未来的一个单词&＃xff0c;最终再把每个时间步生成的单词拼成一个完整的序列输出。这其中的时延成为了线上使用或者实时使用这些预训练的自然语言生成模型的瓶颈。

非自回归模型的提出缓解了自回归模型的高时延问题。在非自回归模型中&＃xff0c;每个单词之间没有依赖关系&＃xff0c;整个输出序列的每个单词被并行地同步预测。虽然其推断速度得到了很大改善&＃xff0c;但是生成质量却往往弱于自回归模型。为了平衡推断速度和生成质量&＃xff0c;半非自回归的模型被提出和研究。半非自回归的经典做法是把非自回归生成的结果进行多次迭代&＃xff0c;但不同半非自回归模型的算法差异比较大。由于和自回归相比&＃xff0c;非自回归和半非自回归的依赖关系学习和生成难度较大&＃xff0c;所以它们往往在文本-文本翻译&＃xff0c;或者语音-文本翻译&＃xff0c;文本-语音翻译等输入输出较为对齐的任务上可以提供不错的生成效果&＃xff0c;但是很少在问答、对话、摘要等任务上进行研究&＃xff0c;而这些领域被自回归生成验证可以拥有不错的生成质量且在预训练下得到提升。

针对上述问题&＃xff0c;微软亚洲研究院的研究员们提出了新的自然语言生成预训练 BANG&＃xff0c;并指出自回归和非自回归生成可以被统一地理解为&＃xff0c;有多大比例的上文信息可以被使用。BANG 的贡献主要有&＃xff1a;

1&＃xff09;BANG 在大规模预训练中&＃xff0c;通过考虑遮盖任意长度的前文来沟通自回归和非自回归生成&＃xff1b;

2&＃xff09;提出跨流可见的多流注意力机制来实现高效的预训练&＃xff0c;所有单词在考虑到任意长度前文被遮盖的前提下都可被并行预测&＃xff1b;

3&＃xff09;对于不同的需求状况&＃xff0c;BANG 支持自回归微调&＃xff0c;非自回归微调和半非自回归微调。BANG 第一次把不同的生成方案在同一个预训练模型里进行支持&＃xff1b;

4&＃xff09;研究员们在 16GB 的英语语料上进行了预训练&＃xff0c;在摘要、对话、问题生成上&＃xff0c;BANG 对自回归效果和半非自回归效果带来了显著的提升&＃xff0c;并达到了与非预训练的 Transformer 自回归模型相似的评测结果。对于自回归生成的微调&＃xff0c;BANG 也可以和当前主流的自回归预训练模型达到相似的结果。

BANG 模型结构

总体结构

基于 Transformer 编码器-解码器的序列生成框架&＃xff0c;BANG 由多层堆叠的使用自注意力机制的 Transformer 编码器和多层堆叠的使用跨流可见多流自注意力机制的 Transformer 解码器组成。研究员们考虑了使用输入序列 X&＃61;{x_1,x_2,…,x_(|X|)}&＃xff0c;生成预测目标序列 Y&＃61;{y_1,y_2,…,y_(|Y|)} 的过程。

首先&＃xff0c;编码器将输入序列解码编码为隐状态 H_enc。

在解码器端&＃xff0c;对于 Y 中的每个单词 y_t&＃xff0c;解码器都会产生将前文中的任意长度前缀遮盖后的预测概率&＃xff1a;

而 BANG 目标序列的条件生成概率和优化的语言模型则可描述为&＃xff1a;

BANG 会优化 Y ̂ 而非原始的输出序列 Y。对 Y 中的每个单词 y_t&＃xff0c;Y ̂ 都会考虑对任意 i

跨流可见多流自注意力

为了实现上述的优化目标&＃xff0c;且高效并行化计算&＃xff0c;研究员们提出了跨流可见多流自注意力机制。以预测 y_4 为例&＃xff0c;如图1&＃xff1a;

图1&＃xff1a;BANG 预训练中的信息流

在图1 BANG 预训练中的信息流中&＃xff0c;M-S 指主要流&＃xff08;main stream&＃xff09;&＃xff0c;喂入真实的字符&＃xff1b;P-S 指预测流&＃xff08;predicting stream&＃xff09;&＃xff0c;喂入 [M]&＃xff08;[MASK]&＃xff09;。P-S 中的 [MASK] 向 M-S 和它之前的 P-S 进行注意力计算来获取前文的真实单词 &＃43;[MASK] 字符的信息。

图1最上面的一行展示了主要流和第一个预测流。预测 y_4 使用的 [M] 向主要流中的 y_1,y_2,y_3 进行注意力计算&＃xff0c;即 y_4 以条件概率 P(y_4 |y_1,y_2,y_3) 进行预测&＃xff0c;其效果如左侧所示。第一个预测流中的所有字符以完整的前文信息进行了自回归的预测。

图1中的第二行则展示了 y_4 在第二个预测流中的效果。第二个预测流中&＃xff0c;每个被预测的单词所看到的前文信息都被遮盖住了一个字符&＃xff0c;即如左侧所示&＃xff0c;y_4 看到真实的 y_1 和 y_2&＃xff0c;但是 y_3 被 [M] 遮盖。其实现如右侧的主要流和两个预测流所示。第二个预测流中的 [M] 向主要流的 y_1,y_2 以及第一个预测流中 y_3 的 [M] 进行注意力计算。第一个预测流 y_3 的 [M] 与第二个预测流中的 y_4 则组成了条件概率 P(y_3,y_4 |y_1,y_2)。比较第一行和第二行&＃xff0c;可以看到&＃xff0c;随着注意力流的增大&＃xff0c;前面的上文信息被遮盖&＃xff0c;生成方式也从自回归向非自回归移动。

图1中最后一行展示了 y_4 在第四个预测流中&＃xff0c;最终以非自回归的方式进行预测。此时第四预测流中预测 y_4 的 [M] 向第一个预测流中 y_1 的 [M]&＃xff0c;第二个预测流中 y_2 的 [M] 和第三个预测流中 y_3 的 [M] 进行注意力计算&＃xff0c;此时没有任何真实的上文信息被使用。

可以看到&＃xff0c;第一个预测流中&＃xff0c;每个单词都以自回归进行预测&＃xff1b;每个预测流中的第一个单词以非自回归进行预测&＃xff1b;其他位置则以介于自回归和非自回归之间的方式进行预测。假设目标序列长度 |Y|&＃61;n&＃xff0c;则 BANG 设置 n 个预测流&＃xff0c;此时每个词的任意长度前缀被 [M] 替换的情形都在同一个时间步中被进行并行的预测。

为了优化 GPU 的显存占用和计算量&＃xff0c;BANG 采用了成块的计算方案。因为每个位置只会看到它之前的预测流信息&＃xff0c;所以 BANG 从第一个预测流向最后一个预测流进行计算&＃xff0c;将重复计算的 K 和 V 向量缓存下来。在第 l 层的工作流程如下&＃xff1a;

其中&＃xff0c;Linear 是从隐状态中获取 Q,K, V 向量的三个线性计算函数&＃xff0c;⊕ 代表拼接操作&＃xff0c;Attn 函数则可以描述为&＃xff1a;

其中&＃xff0c;L 为相对位置偏差和控制哪些位置可以被看到的遮盖矩阵。

微调策略

继续以预测 y_4 为例&＃xff0c;来看一下针对自回归、非自回归、半自回归的微调策略。在 BANG 自回归生成微调中&＃xff0c;预测流中的 [M] 可以从主要流中获取完整的前文信息。其训练方式同 XLNet 的双流机制。

图2&＃xff1a;BANG 自回归微调

在 BANG 的非自回归微调中&＃xff0c;只有一个预测流&＃xff0c;并放置若干个 [M]&＃xff0c;使用单向信息流&＃xff0c;与预训练一致。最后以第一个结束符 [SEP] 代表生成作为结束。

图3&＃xff1a;BANG 非自回归微调

而在 BANG 的半非自回归微调中&＃xff0c;训练过程同预训练方案&＃xff0c;推断过程如图4所示&＃xff0c;可以进行任意步数的自回归生成&＃xff0c;作为高质量的上文线索&＃xff0c;然后将剩余部分并行生成。

图4&＃xff1a;BANG 半非自回归生成

实验结果

主实验

BANG 使用了 Wikipedia 加 BookCorpus 的 16GB 英语语料&＃xff0c;使用 MASS 的连续字段掩盖预测任务进行了 BANG_base 的预训练。对于每个连续的64个单词的片段&＃xff0c;会掩盖其中连续的15%即9个单词&＃xff0c;用预测其掩盖的部分作为输出。BANG_base 使用了6层编码器、6层解码器、隐状态768和9个预测流进行了35轮的预训练。并使用了 SQuAD 1.1 问题生成、XSum 摘要和 PersonaChat 对话生成作为评测集&＃xff0c;进行了自回归、非自回归、半自回归的对比&＃xff0c;结果如下&＃xff1a;

表1&＃xff1a;SQuAD 1.1 问题生成的实验结果

表2&＃xff1a;XSum 摘要任务的实验结果

表3&＃xff1a;PersonaChat 对话生成的实验结果

可以看到&＃xff0c;BANG 对于非自回归和半非自回归的效果提升非常明显&＃xff0c;推断速度基本相似&＃xff0c;而对于自回归模型的效果与当前主流的自回归预训练模型也达到了相似的水准。BANG 非自回归的结果达到了未预训练 Transformer 的相似水平&＃xff0c;并带来了约十倍的推断速度提升&＃xff0c;这表明&＃xff0c;通过预训练&＃xff0c;非自回归也可以在普通的自然语言生成任务上得到不错的生成质量。

与非自回归预训练对比

因为 BANG 是非自回归的第一个大规模语料的预训练工作&＃xff0c;所以在表1-表3中的非自回归和半非自回归的对比模型是没有经过预训练的。为了验证 BANG 对于非自回归生成预训练的有效性&＃xff0c;研究员们使用了非自回归的方案进行了预训练并与 BANG 进行对比&＃xff1a;

表4&＃xff1a;SQuAD 1.1 问题生成上&＃xff0c;没有预训练、非自回归预训练和 BANG 预训练的对比

表5&＃xff1a;Xsum 摘要任务上&＃xff0c;没有预训练、非自回归预训练和 BANG 预训练的对比

可以看出&＃xff0c;预训练可以显著提升非自回归的生成结果&＃xff0c;而经过相同的非自回归微调&＃xff0c;BANG 一致地超过了纯非自回归预训练结果。这表明&＃xff0c;BANG 所提出的沟通自回归和非自回归的预训练方案是取得更好结果的原因。

案例分析

本文作者&＃xff1a;齐炜祯、宫叶云、段楠

论文链接&＃xff1a;&＃xff08;将于近日更新&＃xff09;

BANG: Bridging Autoregressive and Non-autoregressive Generation with Large Scale Pretraining

https://arxiv.org/abs/2012.15525

近期&＃xff0c;研究员还将开源代码&＃xff0c;敬请关注&＃xff1a;

https://github.com/microsoft/BANG

福利

CSDN给大家发压岁钱啦&＃xff01;

2月4日到2月11日每天上午11点

价值198元的芒果TV年卡&＃xff0c;价值99元的CSDN月卡&＃xff01;现金红包&＃xff0c;CSDN电子书月卡等奖品大放送&＃xff01;百分百中奖&＃xff01;

电脑端点击链接参与&＃xff1a;

https://t.csdnimg.cn/gAkN

更多精彩推荐

☞爬了20W&＃43;条猫咪交易数据&＃xff0c;它不愧是人类团宠☞英超引入 AI 球探&＃xff0c;寻找下一个足球巨星 ☞三年投 1000 亿&＃xff0c;达摩院何以仗剑走天涯&＃xff1f;☞2021年浅谈多任务学习

点分享点收藏点点赞点在看

推荐阅读

include
Mathematica 12.3.1 中英文版正式发布，附新功能介绍

历经三十年的开发，Mathematica 已成为技术计算领域的标杆，为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]

蜡笔小新 2024-12-22 09:34:59
merge
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
go
CUGB图论专题：排水系统中的最大流问题 - EK与Dinic算法解析

本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率，使用经典的EK（Edmonds-Karp）和Dinic算法进行求解。 ... [详细]

蜡笔小新 2024-12-25 17:47:23
go
深入解析：Android 视频处理开源框架

本文将详细介绍多个流行的 Android 视频处理开源框架，包括 ijkplayer、FFmpeg、Vitamio、ExoPlayer 等。每个框架都有其独特的优势和应用场景，帮助开发者更高效地进行视频处理和播放。 ... [详细]

蜡笔小新 2024-12-21 19:49:35
get
C# XNA 中实现自定义 3x3 矩阵类：MMatrix33

本文介绍了如何在 C# 和 XNA 框架中实现一个自定义的 3x3 矩阵类（MMatrix33），旨在深入理解矩阵运算及其应用场景。该类参考了 AS3 Starling 和其他相关资源，以确保算法的准确性和高效性。 ... [详细]

蜡笔小新 2024-12-21 17:27:57
go
非公版RTX 3080显卡的革新与亮点

本文深入探讨了图形显卡的进化历程，重点介绍了非公版RTX 3080显卡的技术特点和创新设计。 ... [详细]

蜡笔小新 2024-12-28 13:07:40
io
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
get
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
go
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
python
LeetCode 991：故障计算器的最优解法

探讨一个显示数字的故障计算器，它支持两种操作：将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]

蜡笔小新 2024-12-27 14:34:44
python
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
io
不确定性|放入_华为机试题 HJ9提取不重复的整数

不确定性|放入_华为机试题 HJ9提取不重复的整数 ... [详细]

蜡笔小新 2024-12-24 16:13:05
shell
yikesnews第11期：微软Office两个0day和一个提权0day

点击阅读原文可点击链接根据法国大选被黑客干扰，发送了带漏洞的文档Trumps_Attack_on_Syria_English.docx而此漏洞与ESET&FireEy ... [详细]

蜡笔小新 2024-12-21 16:24:32
controller
深入解析ESFramework中的AgileTcp组件

本文详细介绍了ESFramework框架中AgileTcp组件的设计与实现。AgileTcp是ESFramework提供的ITcp接口的高效实现，旨在优化TCP通信的性能和结构清晰度。 ... [详细]

蜡笔小新 2024-12-21 13:56:06
go
vivo Y5s的核心处理器解析

vivo Y5s配备了联发科Helio P65八核处理器，这款处理器采用12纳米工艺制造，具备两颗高性能Cortex-A75核心和六颗高效能Cortex-A55核心。此外，它还集成了先进的图像处理单元和语音唤醒功能，为用户提供卓越的性能体验。 ... [详细]

蜡笔小新 2024-12-21 11:24:54

愤怒的黑皮_165

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章