当前位置: 开发笔记 > 编程语言 > 正文

NLP中的预训练语言模型（二）

作者：七夜绅士 | 来源：互联网 | 2023-09-09 17:47

本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。一，SpanBERT论文：SpanBERT:ImprovingPre-trainingby Re

　　本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。

一，SpanBERT

　　论文：SpanBERT: Improving Pre-training by Representing and Predicting Spans

　　GitHub：https://github.com/facebookresearch/SpanBERT

　　这篇论文中提出了一种新的mask的方法，以及一个新损失函数对象。并且讨论了bert中的NSP任务是否有用。接下来SpanBERT是如何预训练的，具体如下图所示：

　　　　技术分享图片

　　如上图所示，首先这里的mask策略是span mask。具体的做法是首先从一个几何分布中采样span的长度，且限制最大长度为10，然后再随机采样（如均匀分布) span的初始位置。整个训练任务就是预测mask的token，另外mask的比例问题和bert中类似。但是在这里引入了两个损失对象，$L_{MLM}$ 和$L_{SBO}$，$L_{MLM}$和bert中的一样，而这个$L_{SBO}$是只通过span的边界处的两个token来预测span中mask的词，公式表示如下：

　　　　技术分享图片

　　函数$f(.)$表示如下：

　　　　技术分享图片

　　除了这些之外还有两个策略，一是动态mask，在bert中是在数据预处理阶段对一条序列随机不同的mask 10次，而在这里是每次epoch时对序列使用不同的mask。二是bert中会在数据预处理阶段生成10%的长度短于512的序列，而在这里不做这样的操作，只是对一个document一直截取512长度的序列，但最后一个序列长度可能会小于512。另外将adam中的$\epsilon$设置为1e-8。作者根据这两个策略从新训练了一个bert模型，同时去除NSP任务只使用单条序列训练了一个bert模型。因此作者给出了四个模型的性能对比：

　　Google BERT：谷歌开源的bert

　　Our BERT：基于上面两个策略训练出来的bert

　　Our BERT-1seq：基于上面两个策略，且去除NSP任务的bert

　　SpanBERT：本篇论文提出的模型

　　作者给出的第一个性能测试的表格是在SQuAD数据集上，

　　　　技术分享图片

　　SpanBERT是有很大的提升的，另外去除NSP任务也有提升，作者认为NSP任务使得单条序列的长度不够，以至于模型无法很好的捕获长距离信息。另外在其他的抽取式QA任务上也有很大的提升

　　　　技术分享图片

　　个人认为SpanBERT在抽取式QA任务上能取得如此大的提升，是因为SpanBERT中构造的任务，尤其是SBO任务实际上是有点贴合抽取式QA任务的。

　　在其他任务上SpanBERT也有一些提升，但是没有在抽取式QA任务上提升这么大，此外作者也做实验表示随机mask span的效果是要优于mask 实体或者短语的。

　　综合来说，SpanBERT在抽取式QA上的效果表现优异，在抽取式QA上是值得尝试的。

二，RoBERTa

　　论文：RoBERTa: A Robustly Optimized BERT Pretraining Approach

　　GitHub：https://github.com/brightmart/roberta_zh

　　本篇论文主要是在bert的基础上做精细化调参，可以看作是终极调参，最后性能不仅全面碾压bert，且在大部分任务上超越了XL-Net。

　　总结下，主要有以下六处改变的地方：

　　1）Adam算法中的参数调整，$\epsilon$由1e-6改成1e-8，$\beta_2$由0.999改成0.98。

　　2）使用了更多的数据，从16GB增加到160GB。

　　3）动态mask取代静态mask。

　　4）去除NSP任务，并采用full-length 序列。

　　5）更大的batch size，更多的训练步数。

　　6）用byte-level BPE取代character-level BPE。

　　接下来我们来结合作者的实验看看。首先作者任务调整adam的参数是可以使得训练更加稳定且也能取得更好的性能，但并没有给出实验数据。增加数据提升性能是毋庸置疑的。

　　动态mask

　　在bert中是在数据预处理时做不同的mask 10次，这样在epochs为40的时候，平均每条mask的序列会出现4次，作者在这里使用动态mask，即每次epochs时做一次不同的mask。结果对比如下：

　　　　技术分享图片

　　说实话，没觉得有多大提升，毕竟我们在训练模型的时候，一条数据也会被模型看到多次。

　　模型输入

　　对比了有无NSP任务的性能，以及不同的序列输入的性能，作者在这里给出了四种输入形式：

　　1）SEGMENT-PAIR + NSP：两个segment组成句子对，并且引入NSP任务

　　2）SENTENCE-PAIR + NSP：两个sentence组成句子对，并且引入NSP任务，总长可能会比512小很多。

　　3）FULL-SENTENCES：有多个完成的句子组成，对于跨文档的部分，用一个标识符分开，但是总长不超过512，无NSP任务

　　4）DOC-SENTENCES：有多个完整的句子组成，但是不跨文档，总长不超过512

　　性能如下：

　　　　技术分享图片

　　显然直接用句子对效果最差，作者认为主要时序列长度不够，导致模型无法捕捉长距离信息。并且去除NSP任务效果也有所提升。

　　更大的batch size，更多的训练次数

　　作者认为适当的加大batch size，既可以加速模型的训练，也可以提升模型的性能。

　　　　技术分享图片

　　之后作者在8k的batch size下又增大训练次数

　　　　技术分享图片

　　从实验中可以看出采用更大的训练次数，性能也是有不小的提升的。并且可以看到即使在训练数据差不多的情况下，RoBERTa也是要优于BERT的。

　　总之RoBERTa是一个调参成功的BERT，在诸多任务上全面超越bert，大部分超越XL-Net。

　　　　技术分享图片

推荐阅读

jsp
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
jsp
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56
jsp
LeetCode 有效回文串 II：深入解析与优化算法

在 LeetCode 的“有效回文串 II”问题中，给定一个非空字符串 `s`，允许删除最多一个字符。本篇深入解析了如何判断删除一个字符后，字符串是否能成为回文串，并提出了高效的优化算法。通过详细的分析和代码实现，本文提供了多种解决方案，帮助读者更好地理解和应用这一算法。 ... [详细]

蜡笔小新 2024-11-11 17:40:42
jsp
MySQL查询执行流程详解

MySQL的查询执行流程涉及多个关键组件，包括连接器、查询缓存、分析器和优化器。在服务层，连接器负责建立与客户端的连接，查询缓存用于存储和检索常用查询结果，以提高性能。分析器则解析SQL语句，生成语法树，而优化器负责选择最优的查询执行计划。这一流程确保了MySQL能够高效地处理各种复杂的查询请求。 ... [详细]

蜡笔小新 2024-11-11 16:48:32
jsp
解决DNS服务器配置转发无法解析的问题

本文详细介绍了如何解决DNS服务器配置转发无法解析的问题，包括编辑主配置文件和重启域名服务的具体步骤。 ... [详细]

蜡笔小新 2024-11-13 02:41:19
jsp
使用Duilib实现窗体动画效果

本文详细介绍了如何利用Duilib界面库开发窗体动画效果，包括基本思路和技术细节。这些方法不仅适用于Duilib，还可以扩展到其他类似的界面开发工具。 ... [详细]

蜡笔小新 2024-11-12 09:41:11
jsp
Spark中使用map或flatMap将DataSet[A]转换为DataSet[B]时Schema变为Binary的问题及解决方案

本文探讨了在使用Spark的map或flatMap算子将一个数据集转换为另一个数据集时，遇到的Schema变为Binary的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-12 08:06:20
list
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
list
解决Parallels Desktop错误15265的方法

本文详细介绍了在使用Parallels Desktop时遇到错误15265的多种解决方案，包括检查网络连接、关闭代理服务器和修改主机文件等步骤。 ... [详细]

蜡笔小新 2024-11-12 05:14:12
jsp
解决 Windows Server 2016 网络连接问题

本文详细介绍了如何解决 Windows Server 2016 在使用无线网络 (WLAN) 和有线网络 (以太网) 时遇到的连接问题。包括添加必要的功能和安装正确的驱动程序。 ... [详细]

蜡笔小新 2024-11-12 00:01:44
jsp
使用Jsoup解析并遍历HTML文档结构

使用Jsoup解析并遍历HTML文档时，该库能够高效地生成一个清晰、规范的解析树，即使源HTML文档存在格式问题。Jsoup具备强大的容错能力，能够处理多种异常情况，如未闭合的标签等，确保解析结果的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 21:30:03
jsp
CentOS 7 中 iptables 过滤表实例与 NAT 表应用详解

在 CentOS 7 系统中，iptables 的过滤表和 NAT 表具有重要的应用价值。本文通过具体实例详细介绍了如何配置 iptables 的过滤表，包括编写脚本文件 `/usr/local/sbin/iptables.sh`，并使用 `iptables -F` 清空现有规则。此外，还深入探讨了 NAT 表的配置方法，帮助读者更好地理解和应用这些网络防火墙技术。 ... [详细]

蜡笔小新 2024-11-11 18:33:22
jsp
未加载符号表，请使用“file”命令加载目标文件以进行调试。

在使用Eclipse进行调试时，如果遇到未解析的断点（unresolved breakpoint）并显示“未加载符号表，请使用‘file’命令加载目标文件以进行调试”的错误提示，这通常是因为调试器未能正确加载符号表。解决此问题的方法是通过GDB的`file`命令手动加载目标文件，以便调试器能够识别和解析断点。具体操作为在GDB命令行中输入 `(gdb) file `。这一步骤确保了调试环境能够正确访问和解析程序中的符号信息，从而实现有效的调试。 ... [详细]

蜡笔小新 2024-11-11 18:21:47
jsp
系统数据实体验证异常：多个实体验证失败的错误处理与分析

在使用MVC和EF框架进行数据保存时，遇到了 `System.Data.Entity.Validation.DbEntityValidationException` 错误，表明存在一个或多个实体验证失败的情况。本文详细分析了该错误的成因，并提出了有效的处理方法，包括检查实体属性的约束条件、调试日志的使用以及优化数据验证逻辑，以确保数据的一致性和完整性。 ... [详细]

蜡笔小新 2024-11-11 16:54:45
jsp
装饰者模式（Decorator）：一种灵活的对象结构设计模式

装饰者模式（Decorator）是一种灵活的对象结构设计模式，旨在为单个对象动态地添加功能，而无需修改原有类的结构。通过封装对象并提供额外的行为，装饰者模式比传统的继承方式更加灵活和可扩展。例如，可以在运行时为特定对象添加边框或滚动条等特性，而不会影响其他对象。这种模式特别适用于需要在不同情况下动态组合功能的场景。 ... [详细]

蜡笔小新 2024-11-11 16:36:53

七夜绅士

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章