
哈工大讯飞联合实验室(HFL)发布在更大规模语料上训练的基于全词Mask的中文预训练模型BERT-wwm-ext。该模型在多项基准测试上获得了进一步性能提升。我们欢迎各界同行下载使用。
下载地址:https://github.com/ymcui/Chinese-BERT-wwm
摘要哈工大讯飞联合实验室在2019年6月20日发布了基于全词Mask的中文预训练模型BERT-wwm,受到业界广泛关注及下载使用。为了进一步提升中文自然语言处理任务效果,推动中文信息处理发展,我们收集了更大规模的预训练语料用来训练BERT模型,其中囊括了百科、问答、新闻等通用语料,总词数达到5.4B。通过初步实验,我们可以看到采用了更多数据训练并且加大训练步数可以进一步带来性能提升。BERT-wwm-ext采用了与BERT以及BERT-wwm一样的模型结构,同属base模型,由12层Transformers构成。训练第一阶段(最大长度为128)采用的batch size为2560,训练了1M步。训练第二阶段(最大长度为512)采用的batch size为384,训练了400K步。
基线测试结果中文简体阅读理解:CMRC 2018
CMRC 2018是哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。本实验中可以看到,BERT-wwm模型显著优于BERT和ERNIE。使用了更大规模数据训练的BERT-wwm-ext则会带来进一步性能提升。

中文繁体阅读理解:DRCD
DRCD数据集由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。可以看到BERT-wwm-ext带来非常显著的性能提升。值得注意的是新加入的训练语料中不包含繁体中文数据,繁体中文仅存在于中文维基百科数据中。

自然语言推断:XNLI
在自然语言推断任务中,我们采用了XNLI数据。可以看到BERT-wwm-ext与ERNIE在该任务上的效果较好。

延伸阅读哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型
原文、编辑:HFL编辑部

