超详细中文预训练模型ERNIE使用指南

作者：ghost | 来源：互联网 | 2023-05-18 18:36

作者|高开远，上海交通大学，自然语言处理研究方向最近在工作上处理的都是中文语料，也尝试了一些最近放出来的预训练模型（ERNI

640?wx_fmt&＃61;jpeg

作者 | 高开远&＃xff0c;上海交通大学&＃xff0c;自然语言处理研究方向

最近在工作上处理的都是中文语料&＃xff0c;也尝试了一些最近放出来的预训练模型&＃xff08;ERNIE&＃xff0c;BERT-CHINESE&＃xff0c;WWM-BERT-CHINESE&＃xff09;&＃xff0c;比对之后还是觉得百度的ERNIE效果会比较好&＃xff0c;而且使用十分方便&＃xff0c;所以今天就详细地记录一下。希望大家也都能在自己的项目上取得进展~

1、A Glance at ERNIE

640?wx_fmt&＃61;png

关于ERNIE模型本身的话这篇不会做过多介绍&＃xff0c;网上的介绍文档也很多了&＃xff0c;相信从事NLP的同学们肯定都非常熟悉啦。

2、ERNIE源码浅尝

Okay&＃xff0c;当我们了解了ERNIE模型的大体框架及原理之后&＃xff0c;接下来就可以深入理解一下具体的实现啦。ERNIE是基于百度自己的深度学习框架飞桨&＃xff08;PaddlePaddle&＃xff09;搭建的&＃xff0c;&＃xff08;百度推这个飞桨的力度还是蛮大的&＃xff0c;还开放了免费算力&＃xff09;&＃xff0c;大家平时炼丹用的更多的可能是TensorFlow和Pytorch&＃xff0c;这里关于运行ERNIE的飞桨环境安装可以参考快速安装指南&＃xff1a;

https://www.paddlepaddle.org.cn/#quick-start

2.1 关于输入

模型预训练的输入是基于百科类、资讯类、论坛对话类数据构造具有上下文关系的句子对数据&＃xff0c;利用百度内部词法分析工具对句对数据进行字、词、实体等不同粒度的切分&＃xff0c;然后基于 tokenization.py 中的 CharTokenizer 对切分后的数据进行 token 化处理&＃xff0c;得到明文的 token 序列及切分边界&＃xff0c;然后将明文数据根据词典config/vocab.txt 映射为 id 数据&＃xff0c;在训练过程中&＃xff0c;根据切分边界对连续的 token 进行随机 mask 操作。经过上述预处理之后的输入样例为&＃xff1a;

11048 492 1333 1361 1051 326 2508 5 1803 1827 98 164 133 2777 2696 983 121 4 199 634 551 844 85 14 2476 1895 33 13 983 121 23 7 1093 24 46 660 12043 2 1263 6328 33 121 126 398 276 315 5 63 44 35 25 12043 2;0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11;0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 2829 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 5455;-1 0 0 0 0 1 0 1 0 0 1 0 0 1 0 1 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 0 0 0 1 0 0 00 -1 0 0 0 1 0 0 1 0 1 0 0 1 0 1 0 -1;0

一共有五个部分组成&＃xff0c;每个部分之间用分号;隔开&＃xff1a;

token_ids&＃xff1a;输入句子对的表示&＃xff1b;
sentence_type_ids&＃xff1a;0或者1表示token属于哪一个句子&＃xff1b;
position_ids&＃xff1a;绝对位置编码
seg_labels&＃xff1a;表示分词边界信息&＃xff0c;0表示词首、1表示非词首、-1为占位符
next_sentence_label&＃xff1a;表示该句子对是否存在上下句的关系&＃xff08;0为无1为有&＃xff09;

reader.pretraining.py中的parse_line函数.

640?wx_fmt&＃61;png

2.2 关于mask策略 batching.py

我们知道&＃xff0c;相较于BERT&＃xff0c;ERNIE最大的改进就是中文 &＃43; 短语/实体掩码&＃xff08;这个短语掩码的操作后来也被BERT采用训练出了WWM-BERT&＃xff09;&＃xff0c;所以我们首先来看看ERNIE的掩码机制是怎么样实现的。

640?wx_fmt&＃61;png

2.3 关于infer过程代码改写

ERNIE代码很方便使用&＃xff0c;但是有一个不足的地方就是目前官方还没有给出infer.py文件&＃xff0c;也就是模型训练之后给出快速推理结果的文件。Github上简直万人血书求接口呀。

所以我们的目的就是需要改写源码&＃xff0c;完成这样一个接口&＃xff1a;输入为我们需要预测的文件predict.tsv&＃xff0c;调用接口后输出为相应任务的结果pred_result。下面我们以分类任务为例&＃xff0c;改写一个infer接口。

Step 1. finetune下的classifier.py

在文件中完成predict函数

640?wx_fmt&＃61;png

Step 2. run_classifier.py

修改predict_only&＃61;True时的逻辑

640?wx_fmt&＃61;png

Step 3. finetune_args.py

在该文件中添加一个参数do_predict

640?wx_fmt&＃61;png

OK, 篇幅有限后面还要介绍具体ERNIE实战&＃xff0c;源码阅读部分就先这样&＃xff0c;其实剩下的很多都跟BERT代码比较相似&＃xff0c;感兴趣的同学也可以参考之前的 BERT源码分析系&＃xff1a;https://blog.csdn.net/Kaiyuan_sjtu/article/details/90265473

3、ERNIE实战指南

上面扯的都是务虚的&＃xff0c;接下来我们务实地来看看ERNIE这个预训练模型的具体应用。和BERT相比&＃xff0c;ERNIE的使用更加简单&＃xff0c;在之前介绍过的BERT模型实战之多文本分类&＃xff08;https://blog.csdn.net/Kaiyuan_sjtu/article/details/88709580&＃xff09;中&＃xff0c;我们需要手动改写一个适应自己任务的Processor&＃xff0c;而对于ERNIE来说&＃xff0c;简单到只需要三步&＃xff1a;

把数据准备成要求的格式&＃xff08;源码中使用tsv格式&＃xff0c;不过在bert中我们也说过了&＃xff0c;可以修改成各种格式的&＃xff09;
写一下训练脚本 run_script.sh
跑脚本得到结果 bashrun_script.sh

3.1 准备工作

对于最近大火的预训练模型来说&＃xff0c;绝大多数我们是不太可能自己从头开始训练的&＃xff0c;最多使用的是官方开源的模型进行特定任务的Finetune。所以第一步就是下载模型代码&＃xff08;https://github.com/PaddlePaddle/ERNIE/tree/develop/ERNIE

&＃xff09;以及相应的参数&＃xff08;https://baidu-nlp.bj.bcebos.com/ERNIE_stable-1.0.1.tar.gz&＃xff09;。

接下去就是准备我们任务的数据&＃xff0c;使其符合ERNIE模型输入要求。一般来说字段之间都是label和text_a用制表符分割&＃xff0c;对于句对任务还需要额外的text_b字段。在后面我们会具体介绍每种任务的示例输入。

ok&＃xff0c;前面我们一直强调ERNIE是超友好上手超快的模型&＃xff0c;下面我们结合实际任务来看一看到底有多简单~

3.2 情感分类

情感分类是属于非常典型的NLP基础任务之一&＃xff0c;因为之前BERT写过文本分类&＃xff0c;所以这里我们就稍微换一换口味~这里我们只考虑最简单情况的情感分类任务&＃xff0c;即给定一个输入句子&＃xff0c;要求模型给出一个情感标签&＃xff0c;可以是只有正负的二分类&＃xff0c;也可以是包括中性情感的三分类。ok&＃xff0c;我们来看看数据&＃xff0c;网上随便找了一个财经新闻数据集&＃xff0c;数据来源于雪球网上万得资讯发布的正负面新闻标题&＃xff0c;数据集中包含17149条新闻数据&＃xff0c;包括日期、公司、代码、正/负面、标题、正文6个字段&＃xff0c;其中正面新闻12514条&＃xff0c;负面新闻4635条。大概长这样&＃xff1a;

640?wx_fmt&＃61;png

处理成ERNIE分类任务所需要的输入&＃xff0c;大概长这样&＃xff1a;

640?wx_fmt&＃61;png

将处理完成的数据和前面下载好的预训练模型参数放置到合适的位置&＃xff0c;就可以开始写我们跑模型的脚本文件了&＃xff1a;

640?wx_fmt&＃61;png

嗯&＃xff0c;这样一个任务就结束了…运行脚本后等待输出结果即可&＃xff0c;是不是很简单~

当然如果你还想玩点花样的话&＃xff0c;就可以多看看论文。比如复旦之前有一篇文章是在BERT的基础上&＃xff0c;将ABSA情感分类的单句分类任务转变成了句子对的相似度匹配任务。简单来说就是通过构建辅助句子&＃xff0c;把输入这家餐馆的锅包肉超好吃变成了这家餐馆的锅包肉超好吃 &＃43; 菜品口感的情感是正的&＃xff0c;论文表明这一trick是会比单句分类的效果更好。更具体的细节可以参考论文&＃xff1a;《UtilizingBERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence》&＃xff08;https://www.aclweb.org/anthology/N19-1035&＃xff09;。

3.3 命名实体识别

命名实体识别也是NLP的一个基础任务&＃xff0c;之前在博客中也有过介绍&＃xff1a;【论文笔记】命名实体识别论文&＃xff08;https://blog.csdn.net/Kaiyuan_sjtu/article/details/89143573&＃xff09;关于NER的处理思路也是跟上面情感分类的大同小异&＃xff0c;只不过NER是属于序列标注任务&＃xff0c;在运行脚本的时候注意使用源码中的run_senquence_labeling.py。

640?wx_fmt&＃61;png

4、有趣的ISSUE

Github上比源码更有价值的是对应的issue&＃xff0c;一个好的开源项目会吸引很多人的关注&＃xff0c;issue区里会有很多有趣的思考&＃xff0c;所以大家千万不要错过噢~下面就列几个我觉得比较有意思的issue供大家参考。

4.1 关于batch_size

https://github.com/PaddlePaddle/LARK/issues/4

刚打开ERNIE脚本打算跑的同学可能会发现&＃xff0c;它的batch_size竟然是8192&＃xff0c;我的天哪&＃xff08;小岳岳脸&＃xff09;&＃xff0c;这不得炸&＃xff01;于是乎你非常机智地把batch_size改为了32&＃xff0c;美滋滋地输入bash script/pretrain.py&＃xff0c;然后自信地敲下Enter键。嗯&＃xff1f;&＃xff1f;&＃xff1f;报错&＃xff1f;&＃xff1f;&＃xff1f;

报的什么错大家感兴趣的自己去复现吧~

对&＃xff0c;在pretrain的时候这里的batch_size指的是所有输入token的总数&＃xff0c;所以才会那么大~

4.2 关于Mask机制的逻辑

https://github.com/PaddlePaddle/LARK/issues/33

正如我开篇说的&＃xff0c;ERNIE的最大创新就是它的mask机制&＃xff0c;这一点的代码实现也在issue区被热烈讨论

4.3 关于获取输入的中间向量表示

https://github.com/PaddlePaddle/LARK/issues/41

有时候我们会需要获取句子Embedding 和 tokenEmbeddings&＃xff0c;可参照下面的方案。

640?wx_fmt&＃61;png

4.4 预测被masked的词

https://github.com/PaddlePaddle/LARK/issues/135

将一个句子的某个词语mask后&＃xff0c;然后使用模型去预测这个词语&＃xff0c;得到候选词和词语的概率

4.5. ERNIE模型部署

飞桨&＃xff08;PaddlePaddle&＃xff09;模型的部署可以在官方说明文档中找到

https://www.paddlepaddle.org.cn/documentation/docs/zh/1.4/advanced_usage/deploy/inference/index_cn.html

5、Some Tips

最后一部分打算说一下关于使用预训练模型的一些小tips&＃xff1a;

学习率是第一种重要的参数&＃xff0c;当你开始着手调参时优先从学习率开始。
根据你的任务来选择预训练模型。每个模型的训练大规模语料是不一样的&＃xff0c;这就说明了有些模型天生就是更加适用于某个领域。
所有的预训练模型为了在尽可能多的下游任务上取得较好的效果&＃xff0c;所使用的训练语料的覆盖范围都是非常大的&＃xff0c;但这也带来了一个问题----过于general。也就是说如果你的任务所属domain与训练语料的相差较大&＃xff0c;比如关于医学材料学之类的领域&＃xff0c;反而不容易取得好的效果。所以我们可以在特定领域下尝试post-train预训练模型。
目前来说&＃xff0c;对于中文领域的NLP任务&＃xff0c;可以优先选择ERNIE。听小道消息说&＃xff0c;ERNIE 2.0快出来了&＃xff0c;据说效果很猛。
不要过分迷信预训练模型&＃xff01;&＃xff01;&＃xff01;

关于ERNIE的更多信息&＃xff0c;可点击文末阅读原文或查看以下链接&＃xff1a;

https://github.com/PaddlePaddle/ERNIE/tree/develop/ERNIE

Reference&＃xff1a;

《Enhanced Representation through kNowledge IntEgration》&＃xff1a;
https://arxiv.org/abs/1904.09223
《如何评价百度新发布的NLP预训练模型ERNIE&＃xff1f;》&＃xff1a;
https://www.zhihu.com/question/316140575
《中文任务全面超越 BERT&＃xff1a;百度正式发布NLP预训练模型ERNIE》
https://www.jiqizhixin.com/articles/2019-03-16-3
官方源码&＃xff1a;
https://www.jiqizhixin.com/articles/2019-03-16-3

最后给大家推荐一个GPU福利 - Tesla V100免费算力&＃xff01;配合PaddleHub能让模型原地起飞&＃xff5e;扫码下方二维码申请&＃xff5e;

640?wx_fmt&＃61;png

推荐阅读

bit
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
go
BZOJ4240 Gym 102082G：贪心算法与树状数组的综合应用

BZOJ4240 Gym 102082G 题目 "有趣的家庭菜园" 结合了贪心算法和树状数组的应用，旨在解决在有限时间和内存限制下高效处理复杂数据结构的问题。通过巧妙地运用贪心策略和树状数组，该题目能够在 10 秒的时间限制和 256MB 的内存限制内，有效处理大量输入数据，实现高性能的解决方案。提交次数为 756 次，成功解决次数为 349 次，体现了该题目的挑战性和实际应用价值。 ... [详细]

蜡笔小新 2024-11-01 09:27:15
bit
MySQL性能优化与调参指南【数据库管理】

本文详细探讨了MySQL数据库的性能优化与参数调整技巧，旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面，结合实际案例进行深入分析，提供实用的操作建议。此外，还介绍了常见的性能监控工具和方法，助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]

蜡笔小新 2024-10-31 03:13:07
go
全面指南：Unity中的3D建模技术详解

在Unity中进行3D建模的全面指南，详细介绍了市场上三种主要的3D建模工具：Blender 3D、Maya和3ds Max。每种工具的特点、优势及其在Unity开发中的应用将被深入探讨，帮助开发者选择最适合自己的建模软件。 ... [详细]

蜡笔小新 2024-10-31 19:26:24
go
稀疏直接法视觉里程计中的特征点优化：基于光度误差最小化的灰度图像线性插值技术

在稀疏直接法视觉里程计中，通过优化特征点并采用基于光度误差最小化的灰度图像线性插值技术，提高了定位精度。该方法通过对空间点的非齐次和齐次表示进行处理，利用RGB-D传感器获取的3D坐标信息，在两帧图像之间实现精确匹配，有效减少了光度误差，提升了系统的鲁棒性和稳定性。 ... [详细]

蜡笔小新 2024-10-31 13:24:59
go
数据库性能优化与管理策略深度解析

本文深入探讨了数据库性能优化与管理策略，通过实例分析和理论研究，详细阐述了如何有效提升数据库系统的响应速度和处理能力。文章首先介绍了数据库性能优化的基本原则和常用技术，包括索引优化、查询优化和存储管理等。接着，结合实际应用场景，讨论了如何利用容器化技术（如Docker）来部署和管理数据库，以提高系统的可扩展性和稳定性。最后，文章还提供了具体的配置示例和最佳实践，帮助读者在实际工作中更好地应用这些策略。 ... [详细]

蜡笔小新 2024-10-31 11:16:59
go
优化后的标题：洛谷P3239 [HNOI2015] 亚瑟王算法详解与实现

题目描述：小K不幸被LL邪教洗脑，洗脑程度之深使他决定彻底脱离这个邪教。在最终离开前，他计划再进行一次亚瑟王游戏。作为最后一战，他希望这次游戏能够尽善尽美。众所周知，亚瑟王游戏的结果很大程度上取决于运气，但通过合理的策略和算法优化，可以提高获胜的概率。本文将详细解析洛谷P3239 [HNOI2015] 亚瑟王问题，并提供具体的算法实现方法，帮助读者更好地理解和应用相关技术。 ... [详细]

蜡笔小新 2024-10-30 19:46:06
php
Django框架下的对象关系映射（ORM）详解

在Django框架中，对象关系映射（ORM）技术是解决面向对象编程与关系型数据库之间不兼容问题的关键工具。通过将数据库表结构映射到Python类，ORM使得开发者能够以面向对象的方式操作数据库，从而简化了数据访问和管理的复杂性。这种技术不仅提高了代码的可读性和可维护性，还增强了应用程序的灵活性和扩展性。 ... [详细]

蜡笔小新 2024-10-30 15:30:10
go
特斯拉的盈利之谜：净利润未必源自汽车销售

近日，特斯拉因客户投诉再度成为舆论焦点。一位车主反映其购买仅6天的Model 3在使用官方超级充电桩时突然断电，引发了对特斯拉产品质量和售后服务的质疑。然而，特斯拉的盈利模式并不仅限于汽车销售，其净利润可能更多地来自其他业务板块，如能源服务、自动驾驶技术和软件订阅等。这些多元化收入来源为特斯拉的财务表现提供了更多支撑。 ... [详细]

蜡笔小新 2024-10-29 20:58:57
function
Django框架进阶教程：掌握Ajax请求的基础知识与应用技巧

本教程深入探讨了Django框架中Ajax请求的核心概念与实用技巧，帮助开发者掌握异步数据交互的方法，提升Web应用的响应速度和用户体验。通过实例解析，详细介绍了如何在Django项目中高效实现Ajax请求，涵盖从基础配置到复杂场景的应用。 ... [详细]

蜡笔小新 2024-10-28 17:50:02
php
基于Node.js的高性能实时消息推送系统：利用Socket.IO与Express实现高并发消息转发

基于Node.js的高性能实时消息推送系统通过集成Socket.IO和Express框架，实现了高效的高并发消息转发功能。该系统能够支持大量用户同时在线，并确保消息的实时性和可靠性，适用于需要即时通信的应用场景。 ... [详细]

蜡笔小新 2024-11-01 11:20:11
list
使用cpphttplib构建HTTP服务器以处理带有查询参数的URL请求

使用cpphttplib构建HTTP服务器以处理带有查询参数的URL请求 ... [详细]

蜡笔小新 2024-11-01 00:01:06
php
PHP应用性能优化实战指南：从理论到实践的全面解析

在《PHP应用性能优化实战指南：从理论到实践的全面解析》一文中，作者分享了一次实际的PHP应用优化经验。文章回顾了先前进行的一次优化项目，指出即使系统运行时间较长后出现的各种问题和性能瓶颈，通过采用一些通用的优化策略仍然能够有效解决。文中不仅详细阐述了优化的具体步骤和方法，还结合实例分析了优化前后的性能对比，为读者提供了宝贵的参考和借鉴。 ... [详细]

蜡笔小新 2024-10-31 20:54:49
go
BZOJ1034 详细解析与算法优化

本文深入解析了BZOJ1034问题，并提出了优化算法。通过借鉴广义田忌赛马的贪心策略，当己方当前最弱的马优于对方最弱的马时进行匹配；同样地，若己方当前最强的马优于对方最强的马，也进行匹配。此方法在保证胜率的同时，有效提升了算法效率。 ... [详细]

蜡笔小新 2024-10-31 14:51:49
hash
深入解析进程及其描述符（task_struct）

进程（Process）是指计算机中程序对特定数据集的一次运行活动，是系统资源分配与调度的核心单元，构成了操作系统架构的基础。在早期以进程为中心的计算机体系结构中，进程被视为程序的执行实例，其状态和控制信息通过任务描述符（task_struct）进行管理和维护。本文将深入探讨进程的概念及其关键数据结构task_struct，解析其在操作系统中的作用和实现机制。 ... [详细]

蜡笔小新 2024-10-31 10:54:55

ghost

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章