【自用】预训练语言模型＞ELMo模型

作者：从妖妖 | 来源：互联网 | 2023-07-21 18:35

[2018]ELMo模型参考：[论文]DEEPCONTEXTUALIZEDWORDREPRESENTATIONS[g6v5][知乎]NAACL2018:高级词向量(

[2018] ELMo 模型

参考&＃xff1a;[论文] DEEP CONTEXTUALIZED WORD REPRESENTATIONS [g6v5]
[知乎] NAACL2018:高级词向量(ELMo)详解(超详细) 经典
[文章] 从Word Embedding到Bert模型——自然语言处理预训练技术发展史
ELMo全称Embeddings from Language Models&＃xff0c;是一个双向语言模型。在ELMo出现之前&＃xff0c;词嵌入模型的缺点是对于每一个单词都有唯一的一个词向量表示。然而对于同一个单词的含义&＃xff0c;其实有一定程度上是与上下文相关的&＃xff0c;同一个单词可能在不同的语境下会展现不同的含义。对于“多义词”来说&＃xff0c;只使用一个词向量显然不符合直觉。
ELMo的做法是只预训练language model&＃xff0c;而词向量是通过输入的句子实时输出的&＃xff0c; 这样词向量的含义就是上下文相关的了&＃xff0c;在很大程度上缓解了歧义的发生。

1.ELMo的结构

ELMO 采用了典型的两阶段过程&＃xff1a;

第一个阶段是利用语言模型进行预训练
第二个阶段是在做下游任务时&＃xff0c;从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

上图展示的是其预训练过程&＃xff0c;它的网络结构采用了双层双向 LSTM&＃xff0c;目前语言模型训练的任务目标是根据单词的上下文去正确预测单词&＃xff0c;之前的单词序列 Context-before 称为上文&＃xff0c;之后的单词序列 Context-after 称为下文。

图中左端的前向双层LSTM代表正方向编码器&＃xff0c;输入的是从左到右顺序的除了预测单词外的上文 Context-before&＃xff1b;
右端的逆向双层 LSTM 代表反方向编码器&＃xff0c;输入的是从右到左的逆序的句子下文 Context-after&＃xff1b;
每个编码器的深度都是两层 LSTM 叠加。这个网络结构其实在 NLP 中是很常用的。

使用这个网络结构利用大量语料做语言模型任务就能预先训练好这个网络&＃xff0c;如果训练好这个网络后&＃xff0c;输入一个新句子&＃xff0c;句子中每个单词都能得到对应的三个Embedding&＃xff1a;

最底层是单词的 Wrd Embedding
往上走是第一层双向 LSTM中对应单词位置的 Embedding&＃xff0c;这层编码单词的句法信息更多一些&＃xff1b;
再往上走是第二层 LSTM 中对应单词位置的 Embedding&＃xff0c;这层编码单词的语义信息更多一些。
也就是说&＃xff0c;ELMO 的预训练过程不仅仅学会单词的 Word Embedding&＃xff0c;还学会了一个双层双向的 LSTM 网络结构&＃xff0c;而这两者后面都有用。

2.ELMo的使用

上面介绍的是ELMo的第一阶段&＃xff1a;预训练阶段。
那么预训练好网络结构后&＃xff0c;如何给下游任务使用呢&＃xff1f;
下图展示了下游任务的使用过程&＃xff0c;比如我们的下游任务仍然是 QA 问题&＃xff0c;此时对于问句 X&＃xff0c;我们可以先将句子 X 作为预训练好的ELMo网络的输入&＃xff0c;这样句子 X 中每个单词在ELMo网络中都能获得对应的三个 Embedding&＃xff0c;之后给予这三个 Embedding 中的每一个 Embedding 一个权重 a&＃xff0c;这个权重可以学习得来&＃xff0c;根据各自权重累加求和&＃xff0c;将三个 Embedding 整合成一个。

然后将整合后的这个 Embedding 作为 X 句在自己任务的那个网络结构中对应单词的输入&＃xff0c;以此作为补充的新特征给下游任务使用。对于上图所示下游任务 QA 中的回答句子 Y 来说也是如此处理。

因为 ELMo给下游提供的是每个单词的特征形式&＃xff0c;所以这一类预训练的方法被称为Feature-based Pre-Training。
在这里插入图片描述

3. ELMo 评价

优点
&＃xff08;1&＃xff09;对于 Glove 训练出的 Word Embedding 来说&＃xff0c;多义词比如 play&＃xff0c;根据它的 embedding 找出的最接近的其它单词大多数集中在体育领域&＃xff0c;这很明显是因为训练数据中包含 play 的句子中体育领域的数量明显占优导致&＃xff1b;而使用 ELMO&＃xff0c;根据上下文动态调整后的 embedding 不仅能够找出对应的「演出」的相同语义的句子&＃xff0c;而且还可以保证找出的句子中的 play 对应的词性也是相同的&＃xff0c;这是超出期待之处。之所以会这样&＃xff0c;是因为我们上面提到过&＃xff0c;第一层 LSTM 编码了很多句法信息&＃xff0c;这在这里起到了重要作用&＃xff1b;
&＃xff08;2&＃xff09;见下图&＃xff0c;ELMo在6 个 NLP 任务中性能都有幅度不同的提升&＃xff0c;最高的提升达到 25% 左右&＃xff0c;而且这 6 个任务的覆盖范围比较广&＃xff0c;包含句子语义关系判断&＃xff0c;分类任务&＃xff0c;阅读理解等多个领域&＃xff0c;这说明其适用范围是非常广的&＃xff0c;普适性强&＃xff0c;这是一个非常好的优点。
在这里插入图片描述

局限性
一个非常明显的缺点在特征抽取器选择方面&＃xff1a;ELMo使用了 LSTM 而不是Transformer&＃xff0c;很多研究已经证明了 Transformer 提取特征的能力是要远强于 LSTM 的。

推荐阅读

int
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
java
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
java
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
java
如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解

如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]

蜡笔小新 2024-11-01 19:30:32
int
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
int
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
java
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
int
每日前端实战：148# 视频教程展示纯 CSS 实现按钮两侧滑入装饰元素的悬停效果

通过点击页面右侧的“预览”按钮，您可以直接在当前页面查看效果，或点击链接进入全屏预览模式。该视频教程展示了如何使用纯 CSS 实现按钮两侧滑入装饰元素的悬停效果。视频内容具有互动性，观众可以实时调整代码并观察变化。访问以下链接体验完整效果：https://codepen.io/comehope/pen/yRyOZr。 ... [详细]

蜡笔小新 2024-11-07 14:24:29
java
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
java
复旦大学自然语言处理学习案例：中文词汇分割技术解析

本文通过复旦大学自然语言处理课程中的一个具体案例，详细解析了中文词汇分割技术的实现方法。该案例利用Java编程语言，结合词典和算法模型，展示了如何高效地进行中文文本的词汇分割，为相关研究和应用提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-10-25 16:52:41
java
Java Web Start应用中InvocationTargetException异常的深度解析与解决方案

Java Web Start应用中InvocationTargetException异常的深度解析与解决方案 ... [详细]

蜡笔小新 2024-10-22 11:21:14
java
自然语言处理如何助力人机共鸣

欢迎关注我们微信公众号，可以加入我们QQ人工智能行业交流群626784247.01在当前飞速发展的创新步伐中，科技似乎正在积极地解决人类最紧迫的难 ... [详细]

蜡笔小新 2024-10-17 18:24:20
int
lightgbm过去版本安装包_集成学习算法LightGBM

LightGBM在Kaggle，KDD等各类数据竞赛中，无论是分类问题还是回归问题亦或是排序问题，以GBDT（分类回归决策树 ... [详细]

蜡笔小新 2024-10-16 20:53:55
int
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
int
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25

从妖妖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章