当前位置: 开发笔记 > 编程语言 > 正文

BERT和ERNIE谁更强？这里有一份4大场景的细致评测

作者：晰mine | 来源：互联网 | 2023-07-01 17:01

BERT和ERNIE，NLP领域近来最受关注的2大模型究竟怎么样？刚刚有人实测比拼了一下，结果在中文语言环境下，结果令人意外又惊喜。具体详情究竟如何？不妨一起围观下这篇技术评测。

允中发自凹非寺

量子位报道 | 公众号 QbitAI

BERT和ERNIE，NLP领域近来最受关注的2大模型究竟怎么样？

刚刚有人实测比拼了一下，结果在中文语言环境下，结果令人意外又惊喜。

具体详情究竟如何？不妨一起围观下这篇技术评测。

1. 写在前面

随着2018年ELMo、BERT等模型的发布，NLP领域终于进入了“大力出奇迹”的时代。采用大规模语料上进行无监督预训练的深层模型，在下游任务数据上微调一下，即可达到很好的效果。曾经需要反复调参、精心设计结构的任务，现在只需简单地使用更大的预训练数据、更深层的模型便可解决。

随后在2019年上半年，百度的开源深度学习平台PaddlePaddle发布了知识增强的预训练模型ERNIE，ERNIE通过海量数据建模词、实体及实体关系。相较于BERT学习原始语言信号，ERNIE直接对先验语义知识单元进行建模，增强了模型语义表示能力。

简单来说，百度ERNIE采用的Masked Language Model是一种带有先验知识Mask机制。可以在下图中看到，如果采用BERT随机mask，则根据后缀“龙江”即可轻易预测出“黑”字。引入了词、实体mask之后，“黑龙江”作为一个整体被mask掉了，因此模型不得不从更长距离的依赖（“冰雪文化名城”）中学习相关性。 BERT和ERNIE谁更强？这里有一份4大场景的细致评测除此之外，百度ERNIE还引入了DLM（对话语言模型）任务，通过这种方式来学习相同回复对应的query之间的语义相似性。实验证明DLM的引入对LCQMC（文本相似度计算）系列任务带来了较大的帮助。最终ERNIE采用多源训练数据，利用高性能分布式深度学习平台PaddlePaddle完成预训练。

2. 亲测

到底百度ERNIE模型所引入训练机制有没有起到作用，只有实践了以后才知道。为此，我亲自跑了BERT和ERNIE两个模型，在下面的几个场景中得到了预测结果。

2.1 完形填空

完形填空任务与预训练时ERNIE引入的知识先验Mask LM任务十分相似。从下图的比较中我们可以看到，ERNIE对实体词的建模更加清晰，对实体名词的预测比BERT更准确。例如BERT答案“周家人”融合了相似词语“周润发”和“家人”结果不够清晰；“市关村”不是一个已知实体；“菜菜”的词边界是不完整的。ERNIE的答案则能够准确命中空缺实体。

BERT和ERNIE谁更强？这里有一份4大场景的细致评测

2.2 NER (命名实体识别)

在同样为token粒度的NER任务中，知识先验Mask LM也带来了显著的效果。对比MSRA-NER数据集上的F1 score表现，ERNIE与BERT分别为93.8%、92.6%。在PaddleNLP的LAC数据集上，ERNIE也取得了更好的成绩，测试集F1为92.0%，比BERT的结果90.3%提升了1.7%。分析二者在MSRA-NER测试数据中二者的预测结果。可以观察到：

1.）ERNIE对实体理解更加准确：“汉白玉”不是实体类型分类错误；

2.）ERNIE对实体边界的建模更加清晰：“美国法律所”词边界不完整，而“北大”、“清华”分别是两个机构。

Case对比：摘自MSRA-NER数据测试集中的三段句子。B_LOC/I_LOC为地点实体的标签，B_ORG/L_ORG为机构实体的标签，O为无实体类别标签。下表分别展现了 ERNIE、BERT模型在每个字上的标注结果。

BERT和ERNIE谁更强？这里有一份4大场景的细致评测

2.3 相似度

ERNIE在训练中引入的DLM能有效地提升模型对文本相似度的建模能力。因此，我们比较文本相似度任务LCQMC数据集上二者的表现。从下表的预测结果可以看出，ERNIE学习到了中文复杂的语序变化。最终ERNIE与BERT在该任务数据的预测准确率为87.4%、87.0%.

BERT和ERNIE谁更强？这里有一份4大场景的细致评测

2.4 分类

BERT和ERNIE谁更强？这里有一份4大场景的细致评测

最后，比较应用最广泛的情感分类任务。经过预训练的ERNIE能够捕捉更加细微的语义区别，这些句子通常含有较委婉的表达方式。下面展示了PaddleNLP情感分类测试集上ERNIE与BERT的打分表现：在句式“不是很…”中含有转折关系，ERNIE能够很好理解这种关系，将结果预测为“消极”。在ChnSentiCorp情感分类测试集上finetune后ERNIE的预测准确率为95.4%，高于BERT的准确率（94.3%）。

从以上数据我们可以看到，ERNIE在大部分任务上都有不俗的表现。尤其是在序列标注、完形填空等词粒度任务上，ERNIE的表现尤为突出，一点都不输给Google的BERT。有兴趣的开发者可以一试：

https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

— 完 —

小程序|全类别AI学习教程

BERT和ERNIE谁更强？这里有一份4大场景的细致评测

AI社群|与优秀的人交流

BERT和ERNIE谁更强？这里有一份4大场景的细致评测

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

以上所述就是小编给大家介绍的《BERT和ERNIE谁更强？这里有一份4大场景的细致评测》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们的支持！

推荐阅读

match
您的环境缺少SentencePiece库，导致XLNetTokenizer无法正常运行

您的环境缺少SentencePiece库，导致XLNetTokenizer无法正常运行 ... [详细]

蜡笔小新 2024-10-26 15:36:58
js
深入解析十大经典排序算法：动画演示、原理分析与代码实现

本文深入探讨了十种经典的排序算法，不仅通过动画直观展示了每种算法的运行过程，还详细解析了其背后的原理与机制，并提供了相应的代码实现，帮助读者全面理解和掌握这些算法的核心要点。 ... [详细]

蜡笔小新 2024-10-29 12:31:50
web
Gear 月度进展报告：2023年7月最新动态与技术升级

Gear 月度进展报告：2023年7月最新动态与技术升级 ... [详细]

蜡笔小新 2024-10-28 18:28:06
web
Sapphire 测试网上线：首个支持 EVM 的隐私 ParaTime 环境

Sapphire 测试网上线：首个支持 EVM 的隐私 ParaTime 环境 ... [详细]

蜡笔小新 2024-11-01 12:43:08
python
jQuery Flot 数据可视化插件：高效绘制图表的专业工具

jQuery Flot 是一款高效的数据可视化插件，专为绘制各种图表而设计。该工具支持丰富的图表类型和自定义选项，适用于多种应用场景。用户可以通过其官方网站获取示例代码和下载资源，以便快速上手和使用。 ... [详细]

蜡笔小新 2024-11-01 12:28:23
python
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
python
BZOJ4240 Gym 102082G：贪心算法与树状数组的综合应用

BZOJ4240 Gym 102082G 题目 "有趣的家庭菜园" 结合了贪心算法和树状数组的应用，旨在解决在有限时间和内存限制下高效处理复杂数据结构的问题。通过巧妙地运用贪心策略和树状数组，该题目能够在 10 秒的时间限制和 256MB 的内存限制内，有效处理大量输入数据，实现高性能的解决方案。提交次数为 756 次，成功解决次数为 349 次，体现了该题目的挑战性和实际应用价值。 ... [详细]

蜡笔小新 2024-11-01 09:27:15
python
智能制造数据综合分析与应用解决方案

在智能制造领域，生产数据通过先进的采集设备收集，并利用时序数据库或关系型数据库进行高效存储。这些数据经过处理后，通过可视化数据大屏呈现，为生产车间、生产控制中心以及管理层提供实时、精准的信息支持，助力不同应用场景下的决策优化和效率提升。 ... [详细]

蜡笔小新 2024-10-31 16:58:11
python
从用户转型为开发者：一场思维升级的旅程 | 专访 StarRocks Committer 周威

从用户转变为开发者，不仅是一次角色的转换，更是一场深刻的思维升级之旅。本次专访中，StarRocks Committer 周威分享了他如何在这一过程中逐步提升技术能力与思维方式，为开源社区贡献自己的力量。 ... [详细]

蜡笔小新 2024-10-31 09:21:44
python
Hacker News热议：众多封装库涌现，程序员是否仍需深入学习算法？

在当前各种算法实现和开源软件包层出不穷的背景下，算法对程序员的重要性是否有所减弱？回顾历史，早期程序员必须熟练掌握算法并频繁自行编写。然而，随着技术的发展，算法逐渐成为一种“商品”，现代开发者更多依赖现成的库和商业算法解决方案。有观点认为，机器学习领域中，许多算法已经被高度封装，不再需要深入理解其背后的数学原理。然而，这种趋势也引发了关于技术深度与广度平衡的讨论，强调了基础理论知识在应对复杂问题时的不可替代性。 ... [详细]

蜡笔小新 2024-10-30 17:57:43
text
利用PaddleSharp模块在C#中实现图像文字识别功能测试

PaddleSharp 是 PaddleInferenceCAPI 的 C# 封装库，适用于 Windows (x64)、NVIDIA GPU 和 Linux (Ubuntu 20.04) 等平台。本文详细介绍了如何使用 PaddleSharp 在 C# 环境中实现图像文字识别功能，并进行了全面的功能测试，验证了其在多种硬件配置下的稳定性和准确性。 ... [详细]

蜡笔小新 2024-10-30 15:53:37
python
六个接私活的平台，技术在手，财富自由！值得推荐给每一位专业人士！

本文将介绍六个适合专业人士接私活的平台，帮助技术人才实现财富自由。这些平台不仅提供了丰富的项目机会，还为用户搭建了高效的合作桥梁，是每位技术人士不容错过的资源。 ... [详细]

蜡笔小新 2024-10-30 15:15:44
text
Android目录遍历工具 | AppCrawler自动化测试进阶（第二部分）：个性化配置详解

终于迎来了“足不出户也能为社会贡献力量”的时刻，但有追求的测试工程师绝不会让自己的生活变得乏味。与其在家消磨时光，不如利用这段时间深入研究和提升自己的技术能力，特别是对AppCrawler自动化测试工具的个性化配置进行详细探索。这不仅能够提高测试效率，还能为项目带来更多的价值。 ... [详细]

蜡笔小新 2024-10-29 13:58:19
python
为何Serverless将成为未来十年的主导技术领域？

为何Serverless将成为未来十年的主导技术领域？ ... [详细]

蜡笔小新 2024-10-28 09:23:05
web
PJSIP 编译与开发指南：深入解析 PJSIP 库的应用与优化

PJSIP 编译与开发指南：深入解析 PJSIP 库的应用与优化 ... [详细]

蜡笔小新 2024-10-27 15:50:01

晰mine

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章