当前位置: 开发笔记 > 编程语言 > 正文

bert简介_首篇严肃的“BERT学”研究，40+论文对比，解读BERT工作原理

作者：豆豆bo69_550 | 来源：互联网 | 2023-08-21 11:21

作者|张景俊编辑|丛末目前，不管是工业界还是学术界，基于Transformer的模型已经广泛应用于自然语言处理(NLP)任务中，然而很多人

作者 | 张景俊

编辑 | 丛末

目前&＃xff0c;不管是工业界还是学术界&＃xff0c;基于 Transformer 的模型已经广泛应用于自然语言处理(NLP)任务中&＃xff0c;然而很多人依然对这些模型的内部工作机制知之甚少。

论文链接&＃xff1a;https://arxiv.org/abs/2002.12327

基于此背景&＃xff0c;Anna Rogers等人对当前霸占各大NLP任务榜单的 BERT 模型进行了论述&＃xff0c;分析了BERT模型工作机理&＃xff0c;包括pre-training和fine-turning阶段。并且提出了一些改善BERT模型训练性能的新方法&＃xff0c;此外&＃xff0c;对未来BERT在NLP任务中的研究方向也进行了探索。

AI 科技评论对这篇文章内容作以简介&＃xff0c;抛砖引玉。

1、简介

自2017年Transformers提出以来&＃xff0c;便迅速席卷了整个NLP领域&＃xff0c;在众多Transformer-based模型中&＃xff0c;毫无疑问最著名的非BERT莫属。本文是一篇综述性文章&＃xff0c;概述了目前学术界对BERT已取得的研究成果&＃xff0c;并且对后续的研究也进行了展望。

2、BERT 架构

BERT是基于multiple “heads”多头组成的Transformer编码器&＃xff0c;它的全连接层采用了self-attention机制&＃xff0c;其中每一个头部都用于进行key、value、query的计算。

BERT的常规工作流程分为两个阶段&＃xff1a;预训练pre-training和微调fine-tuning。其中预训练使用两个半监督任务&＃xff1a;MLM模型和NSP模型&＃xff0c;对于MLM模型而言&＃xff0c;他主要的作用是预测被随机mask的输入token&＃xff0c;对于NSP模型而言&＃xff0c;他主要的作用是用于&＃xff0c;预测两个输入句子是否彼此相邻、是否为前后句关系。相比预训练阶段&＃xff0c;微调fine-tuning主要是针对下游应用&＃xff0c;在fine-tuning时是通常需要一层或多层全连接层来添加到最终编码器层的顶部&＃xff0c;如图1所示&＃xff1a;

目前&＃xff0c;工业界主流的BERT分为基础版和大型版&＃xff0c;差异具体体现在模型网络层数的不同、hidden size的大小和不同数量的attention heads。图2给出了Hewitt等人利用BERT进行NLP任务时的解析树。

3、BERT 嵌入

对于BERT embeddings的介绍&＃xff0c;作者引述了这方面的相关研究成果进行论述。其中Mikolov和Pennington等人对BERT embeddings与传统的static embeddings之间的区别提出了新的见解&＃xff0c;他们认为BERT的embeddings过程是取决于上下文关系的&＃xff0c;即每个输入的token都是依赖于特定上下文的向量&＃xff1b;而Wiedemann等人于认为BERT的embeddings是通过上下文嵌入与词语聚类来实现的&＃xff1b;Mickus等人认为注意力相同单词之间的embedding通过依赖于他们在句子中的位置实现的。

4、BERT学到的是什么知识&＃xff1f;

在这一部分&＃xff0c;作者主要就目前对BERT中的knowledge进行了阐述&＃xff0c;具体包括&＃xff1a;句法知识(Syntactic knowledge)、语义知识(Semantic knowledge)和知识库(World knowledge)。对于Syntactic knowledge而言&＃xff0c;学术界认为BERT对于格式错误的输入信息其实并不敏感&＃xff0c;主要表现在它的预测不因改变单词顺序、句子截断、主语和宾语被删除而受影响。

然而&＃xff0c;对于Semantic knowledge的研究学术论文相对较少&＃xff0c;但是不乏如Tenney等人的研究&＃xff0c;他们主要对BERT编码与语义知识之间的关系进行了研究。对于World knowledge的研究主要是Petroni等人&＃xff0c;他们于2019发表了有关vanilla BERT与World knowledge在关系型任务中的工作原理论文。

5、Localizing linguistic knowledge

这一部分&＃xff0c;作者主要从两个角度来进行阐述&＃xff0c;分别为&＃xff1a;Self-attention heads和BERT layers。

1)Self-attention heads

目前&＃xff0c;许多学者认为研究注意力对于理解Transformer模型很有帮助&＃xff0c;因此针对attention heads学术界进行了大量的研究。2019年&＃xff0c;Kovaleva等人对Self-attentionheads的研究表明&＃xff0c;Self-attention heads不会直接编码任何普通的语言信息&＃xff0c;这是因为它们中有不足一半的是“heterogeneous”模式。同年&＃xff0c;Clark等人对[CLS]和[SEP]在注意力机制中的作用进行了相关研究&＃xff0c;它们假设用[CLS]和[SEP]来代替句号和逗号&＃xff0c;并且让模型学会依赖他们。他们还假定[SEP]的功能就是是“no-op”&＃xff0c;通俗的理解就是一旦模式不适用于当前情况&＃xff0c;其头部信息是完全可以忽略的。

2)BERT layers

针对BERT的网络结构&＃xff0c;作者主要从BERT layers的首层、中间层、最末层三部分进行阐述。对于first layer而言&＃xff0c;可以接收由token、segment和positional embeddings三种组合后的输入&＃xff0c;所以作者认为他的lower layers具有线性的词序信息。对于BERT的middle layer&＃xff0c; Liu等人认为这一层主要用于处理句法信息&＃xff0c;通过实验表明&＃xff0c;跨任务转移在transform中间层上表现最佳。对于BERT的最末层网络而言&＃xff0c;它主要是用于处理具体场景下的任务&＃xff0c;这一点在fine-tuning阶段得到了很好地应用。

6、Training BERT

预训练和微调是BERT中的两个重要的任务。在预训练阶段&＃xff0c;许多学者针对下一句预测(NSP)和屏蔽语言模型提出了改善BERT性能的一些方法&＃xff0c;诸如删除NSP任务、dynamic masking、句子 masking 、实体 masking以及Conditional MLM等等。我们以删除NSP任务为例说明&＃xff0c;作者列举了Liu 、Joshi、Clinchant等人的研究成果&＃xff0c;研究表明删除NSP任务不但不会损害BERT任务的性能&＃xff0c;相反甚至会提升BERT的工作性能&＃xff0c;这一情况尤其是在跨语言模型中将NSP替换为预测当前的前后句子表现的更为明显。

对于微调阶段&＃xff0c;学术界也进行了多项试验来改善BERT的微调性能&＃xff0c;包括 yang等人于2019年提出的加入更多层的网络、Phang等人提出的采用two-stage的方法来提升预训练和微调的中间监督训练等一系列实验探索。

7、How big should BERT be?

当BERT来解决复杂的NLP任务&＃xff0c;大家通常都是采用增加模型的复杂度来提升模型的准确度&＃xff0c;然而Voita等人通过实验表明&＃xff0c;这一做法往往会使得一部分NLP任务因为模型过于复杂反而而造成模型性能的下降。

作者给出了Michel等人在2019年发表论文&＃xff0c;阐述了增加BERT模型复杂度对下游任务造成的损害&＃xff0c;实践表明通过禁用部分多余的头不但没有造成性能的下降&＃xff0c;反而给机器翻译任务带来了性能上的提升&＃xff0c;同样的&＃xff0c;对于GLUE任务&＃xff0c;也有相同的实验结果。至于为什么出现这种情况&＃xff0c;Clark等人认为可能是由于在dropout部分attention时&＃xff0c;会将训练过程中的注意力权重归零的缘故造成的。

基于此背景&＃xff0c;学术界诞生了很多BERT compression的研究&＃xff0c;随之作者列举了有关于压缩后的BERT模型性能&＃xff0c;并进行了比较&＃xff0c;如表1所示。

Table1: Comparison of BERT compression studies

表中的speedup是针对BERTbase而言&＃xff0c;各模型中的下标数字代表的是层数&＃xff0c;可以发现压缩后的BERT&＃xff0c;优点不仅体现在运行速度的提升&＃xff0c;而且performance也大幅提升&＃xff0c;典型的代表模型如TinyBERT、Albert等。

8、Multilingual BERT

这一部分作者主要对Multilingual BERT模型进行了介绍&＃xff0c;其中多语言BERT指的是利用Wikipedia上已有的104种语言&＃xff0c;进行了二次抽样或者使用指数平滑进行超级采样后&＃xff0c;最终训练好的模型&＃xff0c;图7给出了mBERT均值池的语言云图。针对多语言BERT模型&＃xff0c;Wu 和 Dredze等人认为它在zero-shot 转移任务中表现极为出色&＃xff0c;这是由于该模型通过学习大量的高质量跨语言单词&＃xff0c;辅助open-class结构语言&＃xff0c;从而极大地提升了模型的质量。当然多语言BERT模型也有很多需要改进的地方&＃xff0c;作者罗列了业界主要的改进方法&＃xff0c;具体如下&＃xff1a;

1、通过freezing 底层的网络来提升多语言数据集的fine-tuning;

2、在fine-tuning任务上改进单词的对齐&＃xff1b;

3、通过translation language模型来改善预训练时被屏蔽的目标单词或句子对&＃xff1b;

Figure 7:Language centroids of themean-pooled mBERT representations

9、讨论

通过上面的分析介绍&＃xff0c;我们会发现&＃xff0c;相比其他NLP模型&＃xff0c;BERT模型拥有惊人数量的句法、语义以及world knowledge。然而&＃xff0c;对于这些惊人数量的句法、语义以及world knowledge&＃xff0c;学术界并没有阐述BERT任务中探测分类器是如何根据它们学习以及应用于下游任务的。

除此之外&＃xff0c;有关于探针复杂度与检验假设的问题也没有得到合理地解释&＃xff0c;这些都需要我们进一步对原模型进行探索。在此背景下&＃xff0c;作者给出了未来关于BERT的三个研究方向&＃xff0c;分别为&＃xff1a;需要推理能力的benchmarks、开发新方法用于“teach” reasoning以及有效的学习推理过程。

10、结论

在短短一年多的时间里&＃xff0c;BERT已成为NLP领域众多分析模型的首选&＃xff0c;并且很多人也基于BERT进行了各版本的改进&＃xff0c;本论文主要是用于阐述目前BERT的研究成果以及工作原理&＃xff0c;希望读者能够通读这份文献深入了解BERT&＃xff0c;并对以后BERT的研究提出自己的观点与意见。

戳戳&＃xff0c;更有料&＃xff01;

【CVPR 2020专题】

推荐阅读

static
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
go
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
go
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
js
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
ip
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
process
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
process
OpenStack及其构成简介

本文介绍了OpenStack的逻辑概念以及其构成简介，包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]

蜡笔小新 2023-12-12 06:47:38
ip
使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换

本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式，然后详细介绍了相关API，包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List，以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较，指出了JSON的优势和缺点。 ... [详细]

蜡笔小新 2023-12-11 16:20:50
process
awseks和awsssoRBAC身份验证问题

我创建了一个新的AWSSSO（使用内部IDP作为身份源，因此不使用ActiveDirectory）。我能够登录AWSCLI、AWSGUI，但 ... [详细]

蜡笔小新 2023-10-17 17:18:41
process
adfs是什么_培训与开发的概念

adfs是什么_培训与开发的概念（如您转载本文，必须标明本文作者及出处。如有任何疑问请与我联系me@nap7.com）ADFS相关开发技术的中文资料相对匮乏，之前在弄这个东西的时候 ... [详细]

蜡笔小新 2023-10-17 17:14:18
ip
Web一些主要的安全防护措施

OWASP(安全防护、漏洞验证工具)开放式Web应用程序安全项目(OWASP，OpenWebApplicationSecurityProject)是一个组织 ... [详细]

蜡笔小新 2023-10-17 15:59:16
ip
将Firebase添加到调用Microsoft图形的项目中时出错

我正在尝试将Firebase添加到涉及添加以下内容的现有应用程序中：classpath'com.googl ... [详细]

蜡笔小新 2023-10-17 10:31:48
ip
动态多点××× 单云双HUB

动态多点是一个高扩展的IPSEC解决方案传统的ipsecS2S有如下劣势1.中心站点配置量大，无论是采用经典ipsec***还是采用greoveripsec多一个分支 ... [详细]

蜡笔小新 2023-10-17 09:16:50
ip
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26
go
AstridDAO 专访：波卡稳定币黑马 BAI

加入Pol ... [详细]

蜡笔小新 2023-10-17 18:14:14

豆豆bo69_550

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章