一步步理解BERT

作者：小帅 | 来源：互联网 | 2023-07-29 18:05

NLP：自然语言处理（NLP）是信息时代最重要的技术之一。理解复杂的语言也是人工智能的重要组成部分。而自google在2018年10月底公布BERT在11项nlp任务中的卓越表后，BERT（BidirectionalEncoderRepresentationfromTransformers)就成为NLP一枝独秀，本文将为大

作者：张贵发

研究方向：自然语言处理

NLP

NLP：自然语言处理（NLP）是信息时代最重要的技术之一。理解复杂的语言也是人工智能的重要组成部分。而自google在2018年10月底公布BERT在11项nlp任务中的卓越表后，BERT（Bidirectional Encoder Representation from Transformers)就成为NLP一枝独秀，本文将为大家层层剖析bert。

NLP常见的任务主要有：中文自动分词、句法分析、自动摘要、问答系统、文本分类、指代消解、情感分析等。

我们会从one-hot、word embedding、rnn、seq2seq、transformer一步步逼近bert，这些是我们理解bert的基础。

Word Embedding

首先我们需要对文本进行编码，使之成为计算机可以读懂的语言，在编码时，我们期望句子之间保持词语间的相似行，词的向量表示是进行机器学习和深度学习的基础。

word embedding的一个基本思路就是，我们把一个词映射到语义空间的一个点，把一个词映射到低维的稠密空间，这样的映射使得语义上比较相似的词，他在语义空间的距离也比较近，如果两个词的关系不是很接近，那么在语义空间中向量也会比较远。

如上图英语和西班牙语映射到语义空间，语义相同的数字他们在语义空间分布的位置是相同的

在句子的空间结构上我们期望获取更底层的之间的关系比如：

V _King - V _Queen = V _Man -V _Women
V _Paris - V _France = V _Berlin -V _German

king和queen之间的关系相比与man与woman的关系大体应该相同的，那么他们通过矩阵运算，维持住这种关系

Paris 和France之间的关系相比与Berlin与German的关系大体应该相同的，那么他们通过矩阵运算，维持住这种关系

简单回顾一下word embedding,对于nlp来说，我们输入的是一个个离散的符号，对于神经网络来说，它处理的都是向量或者矩阵。所以第一步，我们需要把一个词编码成向量。最简单的就是one-hot的表示方法。如下图所示：

one-hot encoding编码

通常我们有很多的词，那只在出现的位置显示会，那么势必会存在一些问题

高维的表示
稀疏性
正交性（任意两个词的距离都是1，除了自己和自己，这样就带来一个问题，猫和狗距离是1，猫和石头距离也是1，但我们理解上猫和狗距离应该更近一些）

两个词语义上无法正确表示，我们更希望低维的相似的比较接近，语义相近的词距离比较近，语义不想近的词，距离也比较远。

解决的办法就是word enbedding，是一种维位稠密的表示。

Neural Network Language Model（神经网络语言模型）

我们都知道word2vec,glove。其实更早之前的神经网络语言模型里出现。已经有比较早的一个词向量了。语言模型是nlp的一个基本任务，是给定一个句子w，包括k个词，我们需要计算这个句子的概率。使用分解成条件概率乘积的形式。变成条件概率的计算。

传统的方法，统计的n-gram的，词频统计的形式，出现的多，概率就高，出现少概率就低，。

不能常时依赖上下文，如：他出生在法国，他可以讲一口流利的（__），我们希望法语的概率比英语、汉语的概率要高。n-gram记住只能前面有限几个词，若参数比较多，它根本学不到这复杂关系，这是传统语言模型比较大的一个问题。这个可以通过后面的rnn、lstm解决，我们这里先不讨论。
第二个问题就是泛化能力的问题，泛化能力，或者说不能共享上下文的信息，我要去（__）玩，北京、上海应该是一样的，因为都是中国的一个城市，概率应该相等或相近的，但是因为预料中北京很多，所以出现上海的概率很低。那神经网络语言模型就可以解决这样的问题。

神经网络语言模型架构如上图：

将每个词向量拼接成句子矩阵。每一列都是一个词，如北京、上海、天津比较近，大致相同一块区域，所以当预测时，可以给出大概相同的概率，不仅仅与预料中统计结果有关系。矩阵相乘就可以提取出这个词，但是为了提取一个词，我们要进行一次矩阵运算，这个比较低效，所以比较成熟的框架都提供了查表的方法，他的效率更高。

因为上下文环境很相似，会共享类似的context，在问我要去（__）概率会比较大。这也是神经网络语言模型的一个好处。我们通过神经网络语言模型得到一个词向量。当然我们也可以用其他的任务来做，一样得到词向量，比如句法分析，但是那些任务大部分是有监督的学习，需要大量的标注信息。

语言模型是非监督的，资料获取不需要很大的成本。

word2vec和神经网络语言模型不同，直接来学习这个词向量，使用的基本假设是分布式假设，如果两个词的上下文时相似的，那么他们语义也是相似的。

word2vec分为cbow（根据context预测中心词）和skip-gram（根据中心词预测context）两种。

我们可以通过word2vec或者 glove这种模型在大量的未标注的语料上学习，我们可以学习到比较好的向量表示，可以学习到词语之间的一些关系。比如男性和女性的关系距离，时态的关系，学到这种关系之后我们就可以把它作为特征用于后续的任务，从而提高模型的泛化能力。

但是同时存在一些问题比如：

He deposited his money in this bank .
His soldiers were arrayed along the river bank .

word embeding 有个问题就是我们的词通常有很多语义的，比如bank是银行还是河岸，具体的意思要取决与上下文，如果我们强行用一个向量来表示语义的话，只能把这两种语义都编码在这个向量里，但实际一个句子中，一个词只有一个语义，那么这种编码是有问题的。

RNN/LSTM/GRU

那么这种上下文的语义可以通过RNN/LSTM/GRU来解决，RNN与普通深度学习不同的是，RNN是一种序列的模型，会有一定的记忆单元，能够记住之前的历史信息，从而可以建模这种上下文相关的一些语义。RNN中的记忆单元可以记住当前词之前的信息。

RR可以解决，理论上我们希望学到很长的关系，但是由于梯度消失的问题，所以长时依赖不能很好的训练。

其实lstm可以解决RNN长时依赖梯度消失的问题。

seq2seq

对于翻译，我们不可能要求英语第一个词一定对应法语的第一个词，不能要求长度一样，对于这样一个rnn不能解决这一问题。我们使用两个rnn拼接成seq2seq来解决。

我们可以用两段RNN组成seq2seq模型
从而可以来做翻译，摘要、问答和对话系统。

比如经典的翻译例子法语到英语的翻译，由encoder编码到语义空间和decoder根据语义空间解码翻译成一个个的英语句子。

encoder把要翻译的句子，映射到了整个语义空间，decoder根据语义空间再逐一翻译出来，但是句子长度有时会截断。有一个问题，我们需要一个固定长度的context向量来编码所有语义，这个是很困难的，要记住每一个细节是不可能的。用一个向量记住整个语义是很困难的。

这时候我们引入了attention机制。

可以理解为context只记住了一个大概的提取信息，一种方法是做内积，内积大就关注大，这里可以理解为一种提取的方式，当提取到相关内容，再与具体的ecoder位置计算，得到更精细的内容。

pay attention 做内积。越大越相近约重要，

后续的attention、transformer都是对seq2seq的一个改进，通过这种可以解决word embbeing没有上下文的一个问题。

加上attention机制，我们就取得了很大的成绩，但是仍然存在一个问题，

顺序依赖，如下图：t依赖t-1,t-1依赖t-2，串行的，很难并行的计算，持续的依赖的关系，通常很慢，无法并行：

The animal didn’t cross the street because it was too tired.
The animal didn’t cross the street because it was too narrow.

存在单向信息流的问题，只看前文，我们很难猜测it指代的具体内容，编码的时候我们要看整个句子的上下文，只看前面或者只看后面是不行的。

RNN的两个问题：
1、顺序依赖，t依赖t-1时刻。
2、单向信息流（如例子中指代信息，不能确定）
3、需要一些比较多的监督数据，对于数据获取成本很高的任务，就比较困难，在实际中很难学到复杂的上下文关系

Contextual Word Embedding

要解决RNN的问题，就引入了contextual word embedding。

contextual word embedding:无监督的上下文的表示，这种无监督的学习是考虑上下文的，比如ELMo、OpenAI GPT、BERT都是上下文相关的词的表示方法。

attention是需要两个句子的，我们很多时候只有一个句子，这就需要self-attention。提取信息的时候、编码时self-atenntion是自驱动的，self-attention关注的词的前后整个上下文。

self-attention最早是transformer的一部分。transformer是怎么解决这一问题的？

transformer:

本质也是一个encoder与decoder的过程，最起初时6个encoder与6个decoder堆叠起来，如果是LSTM的话，通常很难训练的很深，不能很好的并行

每一层结构都是相同的，我们拿出一层进行解析，每一层有self-attention和feed-forward，decoder还有普通的attention输入来自encoder，和seq-2seq一样，我在翻译某一个词的时候会考虑到encoder的输出，来做一个普通的attention

如下图例子给定两个词 thinking和machies,首先通过word embedding把它变成向量，通过self-attention,把它变成一个向量，这里的sefl-attention时考虑上下文的。然后再接全连接层，计算z ₁ 的时候我要依赖x ₁ 、x ₂ 、x ₃ 整个序列的，才能算z ₁ ，z ₂ 也一样，我算r ₁ 的时候时不需要z ₂ 的，只要有z ₁ 我就可以算r ₁ .只要有z ₂ 就能算r ₂ ,这个是比较大的一个区别，这样就可以并行计算。

我们来看看self-attention具体是怎么计算的

假设只有两个词，映射成长度只有四的向量，接下来使用三个变换矩阵w _q w _k w _v ，分别把每个向量变换成三个向量 q ₁ k ₁ v ₁ q ₂ k ₂ v ₂

这里是与设映的向量相乘得到的

得到向量之后就可以进行编码了，考虑上下文，如上文提到的bank同时有多个语义，编码这个词的时候要考虑到其他的词，具体的计算是q ₁ k ₁ 做内积 q ₂ k ₂ 做内积得到score,内积越大，表示约相似，softmax进行变成概率。花0.88的概率注意Thinking，0.12注意macheins这个词

就可以计算z ₁ 了，z ₁ =0.88 v ₁ +0.12 z ₂

z ₂

的计算也是类似的，

q表示为了编码自己去查询其他的词，k表示被查询，v表示这个词的真正语义，经过变换就变成真正的包含上下文的信息，普通attention可以理解为self-attention的一个特例，

普通attention的对比：

实际中是多个head, 即多个attention(多组qkv)，通过训练学习出来的。不同attention关注不同的信息，指代消解上下位关系，多个head,原始论文中有8个，每个attention得到一个三维的矩阵

将8个3维的拼成24维，信息太多经过24 *4进行压缩成4维。

位置编码：

北京到上海的机票
上海到北京的机票

self-attention是不考虑位置关系的，两个句子中北京，初始映射是一样的，由于上下文一样，qkv也是一样的，最终得到的向量也是一样的。这样一个句子中调换位置，其实attention的向量是一样的。实际是不一样的，一个是出发城市，一个是到达城市。

引入位置编码，绝对位置编码，每个位置一个 Embedding

每个位置一个embedding，同样句子，多了个词就又不一样了，编码就又不一样了

北京到上海的机票 vs 你好，我要北京到上海的机票

tranformer原始论文使用相对位置编码，后面的bert open gpt使用的是简单绝对位置编码：

大家可以尝试bert换一下相对位置会不会更好：

transformer中encoder的完整结构，加上了残差连接和layerNorm

decoder加上了普通的attention,最后一刻的输出，会输入

transformer的decoder不能利用未知的信息，即单向信息流问题。

transformer 解决的问题：

可以并行计算，训练的很深，到后来的open gpt可以到12层 bert的16、24层

单向信息流的问题：至少在encoder的时候考虑前面和后面的信息，所以可以取得很好的效果，

transformer解决了普通word embedding 没有上下文的问题，但是解决这个问题，需要大量的标注信息样本。

如何解决transformer的问题，就引入了elmo

elmo:无监督的考虑上下文的学习。

一个个的预测的语言模型：

双向的lstm，每个向量2n，是一种特征提取的方法，考虑的上下文的，编码完，就定住了，

elmo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定的符合我们特定的任务，是一种双向的特征提取。

openai gpt就做了一个改进，也是通过transformer学习出来一个语言模型，不是固定的，通过任务 finetuning,用transfomer代替elmo的lstm。

openai gpt其实就是缺少了encoder的transformer。当然也没了encoder与decoder之间的attention。

openAI gpt虽然可以进行fine-tuning,但是有些特殊任务与pretraining输入有出入，单个句子与两个句子不一致的情况，很难解决，还有就是decoder只能看到前面的信息。

bert

bert从这几方面做了改进：

Masked LM
NSP Multi-task Learning
Encoder again

bert为什么更好呢？

单向信息流的问题 ,只能看前面，不能看后面，其实预料里有后面的信息，只是训练语言模型任务特殊要求只能看后面的信息，这是最大的一个问题
其次是pretrain 和finetuning 几个句子不匹配

bert的输入是两个句子，分割符sep，cls表示开始，对输入的两个句子，使用位置编码， segment embeding 根据这个可以知道该词属于哪个句子，学习会更加简单。可以很清楚知道第一句子需要编码什么信息，第二个句子可以编码什么信息。

单向信息流的问题，换一个任务来处理这个问题

单向信息流问题：mask ml 有点类似与完形填空，根据上下文信息猜其中信息，计算出最大概率，随机丢掉15%的词来bert来进行预测，考虑前后双向的信息，怎么搞两个句子？

-50%概率抽连续句子正样本1

50%概率抽随机句子负样本 0

这样学习到两个句子的关系,可以预测句子关系，在一些问答场景下很重要。

finetuning:

单个句子的任务，我们拿第一个cls向量，上面接一些全连接层,做一个分类，标注的数据 fine-tuningbert参数也包括全连接的一个参数，为什么选择第一个？

bert任务还是预测这个词，预测的时候会参考其他的词，如eat本身还是吃的语义，直接根据eat去分类，显然是不可以的，cls没有太多其他词的语义，所以它的语义完全来自其他的语义来自整个句子，编码了整个句子的语义，用它做可以，当然也可以得出所有结果进行拼接后，再来进行预测。

注意：

使用中文模型，不要使用多语言模型
max_seq_length 可以小一点，提高效率
内存不够，需要调整 train_batch_size
有足够多的领域数据，可以尝试 Pretraining

bert的实际应用比较简单，不过多赘述内容，推荐简单的demo样例：

https://www.jianshu.com/p/3d0bb34c488a

本文由作者投稿并且原创授权AINLP首发于公众号平台，点击'阅读原文'直达原文链接，欢迎投稿，AI、NLP均可。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持我们

推荐阅读

function
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
post
揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节

揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节 ... [详细]

蜡笔小新 2024-11-03 18:33:00
go
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
go
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
sum
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
sum
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
sum
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
spring
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
spring
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32
sum
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
spring
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
spring
机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析

机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ... [详细]

蜡笔小新 2024-11-05 15:46:18
post
如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解

如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]

蜡笔小新 2024-11-01 19:30:32
post
共享单车C语言开发项目：全面分析与实现

在该项目中，参与者需结合历史使用模式和天气数据，以预测华盛顿特区自行车共享系统的租赁需求。数据分析部分首先涉及数据的收集，包括用户骑行记录和气象信息，为后续模型构建提供基础。通过深入的数据预处理和特征工程，确保数据质量和模型准确性，最终实现对自行车租赁需求的有效预测。 ... [详细]

蜡笔小新 2024-10-30 10:33:38

小帅

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章