【论文解读】AAAI2020持续学习语义理解框架ERNIE2.0

作者：吴家大少wu_415 | 来源：互联网 | 2023-08-14 12:50

来自：百度NLP2月初，人工智能领域的顶级会议AAAI2020已在美国纽约召开，百度共有28篇论文入选。NLP预训练领域入选论文《ERNI

来自&＃xff1a;百度NLP

2月初&＃xff0c;人工智能领域的顶级会议AAAI 2020已在美国纽约召开&＃xff0c;百度共有28篇论文入选。NLP预训练领域入选论文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》被选为Oral展示。

该论文提出了持续学习的语义理解框架&＃xff0c;该框架可增量学习海量数据中的知识&＃xff0c;持续提升语义理解效果&＃xff0c;本文将对其展开解读。

基于该框架&＃xff0c;ERNIE 2.0模型通过命名实体预测、句子排序结构重建、语义逻辑关系预测等预训练任务学习词法、结构、语义等多个维度知识&＃xff0c;大幅提升了通用语义理解水平。去年12月&＃xff0c;基于ERNIE 2.0改进的模型在权威榜单GLUE上首次突破90大关&＃xff0c;超越人类基线3个点&＃xff0c;获得全球第一。

论文地址&＃xff1a;

https://arxiv.org/abs/1907.12412

Github地址&＃xff1a;

https://github.com/PaddlePaddle/ERNIE

一、研究动机

近两年&＃xff0c;以BERT为代表的无监督预训练技术在多个自然语言处理任务上取得技术突破&＃xff0c;基于大规模数据的无监督预训练技术是未来自然语言处理领域发展的重要方向。

之前的工作主要通过语言共现信号构建语言模型任务进行建模&＃xff0c;例如BERT通过掩码语言模型和下一句预测任务进行预训练。然而&＃xff0c;除了语言共现信息外&＃xff0c;语料中还包含词法、结构、语义等更多有价值的信息&＃xff0c;例如人名、地名、机构名等概念知识&＃xff0c;句子间顺序和距离关系等结构知识&＃xff0c;语言逻辑关系等语义知识。

那么如果持续地学习各类任务&＃xff0c;模型的效果能否进一步提升? 这就是ERNIE 2.0希望探索的。

二、ERNIE 2.0框架

框架概述

ERNIE 2.0框架是基于预训练/微调架构构建的&＃xff0c;这种架构在NLP中非常流行。与BERT等预训练方法的不同之处在于&＃xff1a;它并不是在少量预训练任务上完成的&＃xff0c;而是通过不断引入新的预训练任务&＃xff0c;帮助模型持续高效地学习语义信息。

ERNIE框架支持引入各种自定义预训练任务&＃xff0c;这些任务共享相同的编码网络并通过多任务学习实现训练。当我们给出新的任务时&＃xff0c;ERNIE 2.0框架可以根据先前预训练的权重增量地学习新的知识。

图1 ERNIE 2.0框架

ERNIE 2.0预训练过程可以分为两个步骤&＃xff0c;即构建无监督预训练任务和通过多任务学习增量地更新ERNIE模型。这里不同的任务有序地加入框架中训练&＃xff0c;框架通过持续多任务学习使得模型在学习新任务时不遗忘已经学到过的知识。对于不同的应用任务&＃xff0c;ERNIE 2.0会使用具体的任务数据微调。

持续多任务学习

ERNIE 2.0在学习过程中有两个主要的挑战: 第一个是如何以连续的方式训练任务&＃xff0c;而不忘记以前所学的知识&＃xff1b;第二个是如何更有效地学习这些预训练任务。为此&＃xff0c;ERNIE 2.0中探索了3种预训练的学习方式&＃xff1a;

图 2 不同预训练方式

1、Continual Learning&＃xff1a;在训练的每一个阶段仅通过一项任务来训练模型&＃xff0c;其缺点是会忘记先前学习的知识。

2、Multi-task Learning&＃xff1a;所有任务一起进行多任务学习&＃xff0c;其缺点是在进行训练之前必须准备好所有定制的预训练任务&＃xff0c;每当有新任务时&＃xff0c;模型都需要从头学习。

3、Sequential Multi-task Learning&＃xff1a;ERNIE 2.0中新提出的方法&＃xff0c;每当有新任务出现时&＃xff0c;使用先前学习的参数来初始化模型&＃xff0c;并同时训练新引入的任务和原始任务。这样解决了前两种方法的问题&＃xff0c;可以随时引入新任务&＃xff0c;并保留先前学到的知识。

三、ERNIE 2.0模型

图3 ERNIE 2.0模型结构

ERNIE 2.0 Model使用Transformer作为编码器。经过多层的self-attention机制计算文本的上下文相关表示&＃xff0c;学习不同层面的任务。同时&＃xff0c;其引入了Task Embedding建模不同的预训练任务。模型使用Word、Sentence、Position和Task对应的表示加和作为输入。

模型的预训练任务是从词汇、结构和语义三个层面构建的&＃xff0c;以捕获和建模训练数据中不同的信息&＃xff0c;这里列举一些典型的预训练任务&＃xff1a;

词汇层面任务

1、知识掩码任务&＃xff1a;

ERNIE 1.0(https://arxiv.org/abs/1904.09223) 中介绍了知识掩码任务&＃xff0c;其通过对词、实体等语义单元进行完整地掩码&＃xff0c;使得模型学习完整概念&＃xff0c;ERNIE 2.0使用其作为一个预训练任务。

图4 知识掩码任务

2、大小写预测任务&＃xff1a;

在英文等语言中&＃xff0c;大写的词汇&＃xff08;如Newton等&＃xff09;包含了特殊的语义信息。传统建模有两种&＃xff1a;第一种是全部转化为小写&＃xff0c;更适合自然语言推断等任务&＃xff1b;第二种是保留大小写信息&＃xff0c;更适合命名实体识别等任务。在大小写预测任务中&＃xff0c;模型去学习每个词汇在原文中是否为大写&＃xff0c;兼顾了两种建模方式的优势。

结构层面任务

1、句子排序任务&＃xff1a;

句子之间的顺序反映了它们之间的逻辑顺序以及时间顺序。ERNIE 2.0构建了句子排序预训练任务。在训练过程中&＃xff0c;随机将一个段落中的N个句子打乱&＃xff0c;让模型预测正确的顺序。

图5 句子排序任务

2、句子距离任务&＃xff1a;

句子排序任务建模了段落内的句子关系。如果建模更长的结构关系&＃xff0c;能否进一步加强模型能力&＃xff1f;例如&＃xff0c;不同距离的句对有不同的语义紧密程度。

ERNIE 2.0构建了句子距离任务。输入任意两个句子&＃xff0c;模型预测两个句子是否相邻、是否属于同一文章&＃xff0c;来判断两句的语义关系是否紧密、是否属于同一话题。

语义层面任务

逻辑关系预测任务&＃xff1a;

短句之间的连词往往准确地表示了它们的逻辑关系。在该任务中&＃xff0c;ERNIE 2.0使用短句间的连词&＃xff0c;进行无监督的逻辑关系分类&＃xff0c;建模了细粒度的语义。

图6 句子逻辑关系任务

四、实验结果

论文中分别比较了ERNIE 2.0和当前最优预训练模型在中英文任务上的性能。英文任务中&＃xff0c;ERNIE 2.0在自然语言理解数据集GLUE的7个任务上超过了BERT和XLNet。中文上&＃xff0c;ERNIE 2.0在阅读理解、情感分析、问答等不同类型的9个数据集上超越了BERT&＃xff0c;并刷新了最优效果。

ERNIE 2.0 在英文任务上的效果

ERNIE 2.0模型在GLUE数据集上的性能如表1所示。可以看出相对之前的最优模型BERT和XLNet&＃xff0c;效果提升明显。

表1 ERNIE 2.0在GLUE上的效果

ERNIE 2.0 在中文任务上的效果

在 9 个中文NLP任务上&＃xff0c;ERNIE 2.0_Base在全部9项任务上的效果均超越BERT_BASE&＃xff0c;同时ERNIE 2.0_LARGE效果达到了业界最优。

表2 ERNIE 2.0在9项中文NLP任务上的效果

五、结语

在该论文提出的持续学习语义理解框架ERNIE 2.0中&＃xff0c;知识可通过预训练任务的形式加入到训练框架。该框架可在引入新任务学习时&＃xff0c;不遗忘之前学到过的信息。

基于该框架&＃xff0c;百度研究者提出了词法、结构、语义三个维度构建的多种预训练任务&＃xff0c;大幅提升了ERNIE 2.0模型的通用语义理解水平。该技术已经在工业界得到广泛应用&＃xff0c;在搜索、信息流、智能音箱、智能客服等产品中的效果都取得了显著提升。

至此&＃xff0c;AAAI 2020中百度在NLP领域入选的第二篇论文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》的分享到此结束&＃xff0c;我们将继续对AAAI 2020中百度入选的其余2篇NLP领域论文进行详细解读&＃xff0c;敬请关注&＃xff01;

推荐阅读

io
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
io
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
io
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
io
聊聊中国人工智能科技产业区域竞争力分析及趋势

原文链接：聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数（2021ÿ ... [详细]

蜡笔小新 2023-10-13 11:56:40
io
百度AI Studio人流密度常规赛火热进行中，快来报名！

早晨七点半。北京初秋的凉风叫醒了住在望京西的你，睁开眼睛，一想到又要为人类的信息化事业贡献满满的正能量，你不禁哼唱起那句“早晨起来 ... [详细]

蜡笔小新 2023-10-12 18:57:29
io
华为200万年薪招聘AI应届生——有多少本事，给多少钱

据新浪科技报道，阿里AIlabs年薪百万美元引进两位科学家。除AI顶尖科学家外，华为也是为多位AI应届博士开出了200万的高价年薪。19年9月，各大互联招聘企业陆续发布2019年人 ... [详细]

蜡笔小新 2023-10-11 14:19:53
io
探索语音处理新领域：pzh-speech工具的开发历程

本文由技术爱好者痞子衡撰写，详细介绍了一款名为pzh-speech的语音处理工具的开发背景与核心技术。该工具旨在简化语音处理流程，为开发者提供一个强大的开源解决方案。 ... [详细]

蜡笔小新 2024-11-26 16:27:12
io
构建高性能Feed流系统的设计指南

随着移动互联网的发展，Feed流系统成为了众多社交应用的核心组成部分。本文将深入探讨如何设计一个高效、稳定的Feed流系统，涵盖从基础架构到高级特性的各个方面。 ... [详细]

蜡笔小新 2024-11-26 12:55:53
io
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
split
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
eval
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
eval
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
import
世界人工智能大赛OCR赛题方案！

Datawhale干货作者：阿水，北京航空航天大学，Datawhale成员本文以世界人工智能创新大赛（AIWIN）手写体OCR识别竞赛为实践背景，给出了OCR实践的常见思路和流 ... [详细]

蜡笔小新 2023-10-11 18:31:00
import
以赛促学，飞桨助力大学生智能车竞赛升级！

点击左上方蓝字关注我们第十六届智能汽车竞赛-百度人工智能创意赛道已经开启！比赛虽好，但同学们苦核心开发硬件久矣！百度飞桨作为大赛的赞助商之 ... [详细]

蜡笔小新 2023-10-11 13:22:52
uri
百度AI的2020

百度AI的2020-世界的2020，是充满不确定性的变局之年；中国的2020，是团结一心、共克时艰、于变局中开新局的希望之年；百度AI的2020，是坚定信念，拥抱变化，践行“科技为 ... [详细]

蜡笔小新 2023-10-10 21:47:29

吴家大少wu_415

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章