当前位置: 开发笔记 > 编程语言 > 正文

【BERT】BERT的嵌入层是如何实现的？看完你就明白了

作者：木目心磊_559 | 来源：互联网 | 2023-10-15 11:40

作者：__编译：ronghuaiyang导读非常简单直白的语言解释了BERT中的嵌入层的组成以及实现的方式。介绍在本文中，我将解释BERT

作者&＃xff1a;__

编译&＃xff1a;ronghuaiyang

导读

非常简单直白的语言解释了BERT中的嵌入层的组成以及实现的方式。

介绍

在本文中&＃xff0c;我将解释BERT中嵌入层的实现细节&＃xff0c;即token嵌入、Segment嵌入和Position嵌入。

简介

这是一张来自论文的图&＃xff0c;它恰当地描述了BERT中每一个嵌入层的功能:

与大多数旨在解决nlp相关任务的深度学习模型一样&＃xff0c;BERT将每个输入token(输入文本中的单词)通过token嵌入层传递&＃xff0c;以便将每个token转换为向量表示。与其他深度学习模型不同&＃xff0c;BERT有额外的嵌入层&＃xff0c;以Segment嵌入和Position嵌入的形式。这些附加的嵌入层的原因会在本文的最后变得清楚。

Token嵌入

目的

如前一节所述&＃xff0c;token嵌入层的作用是将单词转换为固定维的向量表示形式。在BERT的例子中&＃xff0c;每个单词都表示为一个768维的向量。

实现

假设输入文本是“I like strawberries”。下图描述了token嵌入层的作用&＃xff1a;

在将输入文本传递到token嵌入层之前&＃xff0c;首先对其进行token化。另外&＃xff0c;在tokens的开始([CLS])和结束([SEP])处添加额外的tokens。这些tokens的目的是作为分类任务的输入表示&＃xff0c;并分别分隔一对输入文本(更多细节将在下一节中介绍)。

tokens化是使用一种叫做WordPiece token化的方法来完成的。这是一种数据驱动的token化方法&＃xff0c;旨在实现词汇量和非词汇量之间的平衡。这就是“strawberries”被分成“straw”和“berries”的方式。对这种方法的详细描述超出了本文的范围。感兴趣的读者可以参考Wu et al. (2016)和Schuster & Nakajima (2012)中的第4.1节。单词token化的使用使得BERT只能在其词汇表中存储30522个“词”&＃xff0c;而且在对英语文本进行token化时&＃xff0c;很少会遇到词汇表以外的单词。

token嵌入层将每个wordpiece token转换为768维向量表示形式。这将使得我们的6个输入token被转换成一个形状为(6,768)的矩阵&＃xff0c;或者一个形状为(1,6,768)的张量&＃xff0c;如果我们包括批处理维度的话。

Segment嵌入

目的

BERT能够解决包含文本分类的NLP任务。这类问题的一个例子是对两个文本在语义上是否相似进行分类。这对输入文本被简单地连接并输入到模型中。那么BERT是如何区分输入的呢&＃xff1f;答案是Segment嵌入。

实现

假设我们的输入文本对是(“I like cats”, “I like dogs”)。下面是Segment嵌入如何帮助BERT区分这个输入对中的tokens :

Segment嵌入层只有两个向量表示。第一个向量(索引0)分配给属于输入1的所有tokens&＃xff0c;而最后一个向量(索引1)分配给属于输入2的所有tokens。如果一个输入只有一个输入语句&＃xff0c;那么它的Segment嵌入就是对应于Segment嵌入表的索引为0的向量。

Position嵌入

目的

BERT由一堆Transformers 组成的&＃xff0c;广义地说&＃xff0c;Transformers不编码其输入的顺序特征。在这个博客文章&＃xff1a;https://medium.com/&＃64;init/how-self-attention-with-relatedposition-representations-works-28173b8c245a的动机部分更详细地解释了我的意思。总之&＃xff0c;有Position嵌入将允许BERT理解给定的输入文本&＃xff0c;比如&＃xff1a;

I think, therefore I am

第一个“I”不应该与第二个“I”具有相同的向量表示。

实现

BERT被设计用来处理长度为512的输入序列。作者通过让BERT学习每个位置的向量表示来包含输入序列的顺序特征。这意味着Position嵌入层是一个大小为(512,768)的查找表&＃xff0c;其中第一行是第一个位置上的任意单词的向量表示&＃xff0c;第二行是第二个位置上的任意单词的向量表示&＃xff0c;等等。因此&＃xff0c;如果我们输入“Hello world”和“Hi there”&＃xff0c;“Hello”和“Hi”将具有相同的Position嵌入&＃xff0c;因为它们是输入序列中的第一个单词。同样&＃xff0c;“world”和“there”的Position嵌入是相同的。

合并表示

我们已经看到&＃xff0c;长度为n的token化输入序列将有三种不同的表示&＃xff0c;即&＃xff1a;

token嵌入&＃xff0c;形状(1,n, 768)&＃xff0c;这只是词的向量表示
Segment嵌入&＃xff0c;形状(1,n, 768)&＃xff0c;这是向量表示&＃xff0c;以帮助BERT区分成对的输入序列。
Position嵌入&＃xff0c;形状(1,n, 768)&＃xff0c;让BERT知道其输入具有时间属性。

对这些表示进行元素求和&＃xff0c;生成一个形状为(1,n, 768)的单一表示。这是传递给BERT的编码器层的输入表示。

总结

在本文中&＃xff0c;我描述了BERT的每个嵌入层的用途及其实现。如果你有任何问题&＃xff0c;请在评论中告诉我。

—END—

英文原文&＃xff1a;https://medium.com/&＃64;init/why-bert-has-3-embedding-layers-and-their-implementation-details-9c261108e28a

投稿或交流学习&＃xff0c;备注&＃xff1a;昵称-学校&＃xff08;公司&＃xff09;-方向&＃xff0c;进入DL&NLP交流群。

方向有很多&＃xff1a;机器学习、深度学习&＃xff0c;python&＃xff0c;情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读

eval
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
int
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
get
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
heap
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
int
京东AI创新之路：周伯文解析京东AI战略的独特之处

2018年4月15日，京东在北京举办了人工智能创新峰会，会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果，还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]

蜡笔小新 2024-12-06 22:57:11
int
探索语音处理新领域：pzh-speech工具的开发历程

本文由技术爱好者痞子衡撰写，详细介绍了一款名为pzh-speech的语音处理工具的开发背景与核心技术。该工具旨在简化语音处理流程，为开发者提供一个强大的开源解决方案。 ... [详细]

蜡笔小新 2024-11-26 16:27:12
get
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
import
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
get
在Ubuntu 16.04 LTS上配置Qt Creator开发环境

本文详细介绍了如何在Ubuntu 16.04 LTS系统中安装和配置Qt Creator，涵盖了从下载到安装的全过程，并提供了常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-27 13:19:53
get
DCG 股东信：解答关键问题与未来展望

DCG 创始人兼首席执行官 Barry Silbert 发布致股东信，详细解答了 19 个核心问题，并分享了公司未来的发展方向。 ... [详细]

蜡笔小新 2024-12-23 11:00:58
text
2018-2019学年第六周《Java数据结构与算法》学习总结

本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容，重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]

蜡笔小新 2024-12-22 16:43:19
triggers
优化DB2数据库性能的关键策略

本文详细介绍了优化DB2数据库性能的多种方法，涵盖统计信息更新、缓冲池调整、日志缓冲区配置、应用程序堆大小设置、排序堆参数调整、代理程序管理、锁机制优化、活动应用程序限制、页清除程序配置、I/O服务器数量设定以及编入组提交数调整等方面。通过这些技术手段，可以显著提升数据库的运行效率和响应速度。 ... [详细]

蜡笔小新 2024-12-22 16:20:33
get
Python技巧：利用Cookie实现自动登录绕过验证码

本文详细介绍了如何通过Python和Selenium库利用浏览器Cookie实现自动登录，从而绕过验证码验证。文章提供了具体的操作步骤，并附有代码示例，帮助读者理解和实践。 ... [详细]

蜡笔小新 2024-12-21 15:24:54
text
Python + Pytest 接口自动化测试中 Token 关联登录的实现方法

本文将深入探讨 Python 和 Pytest 在接口自动化测试中如何实现 Token 关联登录，内容详尽、逻辑清晰，旨在帮助读者掌握这一关键技能。 ... [详细]

蜡笔小新 2024-12-21 14:48:49
text
利用Python实现自动化群发邮件

本文详细介绍如何使用Python语言来实现邮件的自动群发功能，适合希望提高工作效率的技术爱好者和开发者。 ... [详细]

蜡笔小新 2024-12-17 09:44:08

木目心磊_559

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章