近年来随着大数据、深度学习等技术的快速发展,加之与自然语言处理技术密切结合,语言智能获得了持续的续发展和突破,并越来越多地应用于各个行业。百度在自然语言处理技术方面,已有了十几年的技术累积和前瞻探索,并且不断将核心技术高效落地产业实践。
为了适应全面丰富的NLP任务,方便更多开发者灵活插拔尝试多种网络结构,并且让应用最快速达到工业级效果,今年4月23日, 百度正式开放了工业级中文NLP工具与预训练模型集——PaddleNLP (nlp.baidu.com/homepage/nlptools)。
PaddleNLP将自然语言处理领域的多种模型用一套共享骨架代码实现,可大大减少开发者在开发过程中的重复工作。工具集拥有当前业内效果最好的中⽂语义表示模型和基于用户大数据训练的应用任务模型,模型源于产业实践,达到工业级的应用效果。
PaddleNLP完全基于PaddlePaddle (www.paddlepaddle.org)开发。PaddlePaddle 是中国首个、也是目前国内唯一开源开放,集核心框架、工具组件和服务平台为一体的端到端开源深度学习平台,其囊括支持面向真实场景应用、达到工业级应用效果的模型,并具备针对大规模数据场景的分布式训练能力、支持多种异构硬件的高速推理引擎。
PaddleNLP提供依托于百度百亿级大数据的预训练模型,能够极大地方便NLP研究者和工程师快速应用。使用者可以用PaddleNLP快速实现文本分类、文本匹配、序列标注、阅读理解、智能对话等NLP任务的组网、建模和部署,而且可以直接使用百度开源工业级预训练模型进行快速应用。 用户在极大地减少研究和开发成本的同时,也可以获得更好的基于工业实践的应用效果。
扎根产业实践,PaddleNLP为了更好满足开发者需求
百度在十几年来一直扎根NLP技术的产业应用,通过在百度搜索、信息流、百科、贴吧、文库等内部场景的技术积累,加之对外的技术开放与应用,形成了一整套服务于产业实践的NLP技术方案。除了保持技术先进,百度也不断关注开发者对NLP工具的具体需求,希望打造一个全面、易用、高效的开源NLP工具集,让NLP技术有更广泛的落地应用场景。
一个面向完整场景的NLP应用系统通常需要对众多NLP基础任务进行系统化集成方可完成搭建。与此同时,NLP任务通常需要针对应用场景做适应性迁移,需要其具备充分的组网方案自由度且可高效率重训。更重要的是,NLP任务需要通过大量细节调优以满足苛刻的应用需求,非工业级模型难以积累。而百度开源的PaddleNLP工具集恰恰是针对这些需求进行开发,能够覆盖丰富的NLP任务,具备灵活的应用适应性,并拥有优异的应用效果。
全面、灵活、高效,打造强大的PaddleNLP
全面: 涵盖应用任务和基础网络,提供丰富任务类型
PaddleNLP基于十几年的技术积累,提供了全面丰富的中文处理任务,涵盖了文本分类、文本匹配、序列标注、语言表示等多种任务方向,可根据业务需求或实验需求快速选择相应的任务进行使用。
灵活: 任务与网络解耦,网络灵活可插拔
PaddleNLP工具集将任务与网络解耦,区分出应用任务层和基础网络层,同类型任务的不同网络可以实现灵活插拔和快速替换,方便开发者快速针对应用场景做适应性迁移。
高效: 强大的工业化预训练模型,打造优异应用效果
PaddleNLP拥有当前业内效果最好的中⽂语义表示模型和基于用户大数据训练的应⽤用任务模型,模型效果调整机制源于产业实践,模型应用效果更突出。
百度提供了大量工业化预训练模型,包括语义表示基础模型和基于任务的预训练模型。2019年3月,百度提出知识增强的语义表示模型ERNIE(Enhanced Representation through kNowledge IntEgration),在包括语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上,均超越了语义表示模型BERT 的效果。
ERNIE基于海量百科、新闻、贴吧多源数据进行学习。并且相较于BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。同时,ERINE建模Query-Response 对话结构,将对话Pair 对作为输入,进一步提升模型语义表示能力。
除ERNIE之外,百度也开源了针对文本情感分类、对话情绪识别、语义匹配、词法分析、阅读理解等任务场景基于百度海量工业化数据的预训练模型,方便NLP工程师针对具体任务进行开发。
与此同时,百度还开放了在对话等任务的开放数据集上超越SOTA效果的模型网络结构与参数,方便相关领域研究人员快速验证、使用。配合PaddleHub,用户可以轻松进行下载并更新不同版本的预训练模型,方便效果迁移与模型调优。
除了开放预训练模型,PaddleNLP还开放了相关任务的评测数据集。这些数据来自于百度真实的工业化场景,能够很好地对模型效果进行评估。
展望
PaddleNLP工具集将依托Paddle和百度NLP强大的技术保障, 支持更加广泛的任务场景。在不断打磨技术应用效果,优化开发者使用体验的同时,更多、更先进的预训练模型也将会持续不断地发布,欢迎您持续关注。
欢迎您了解更多百度NLP开源工具集能力:
百度NLP开源工具集主页地址:
nlp.baidu.com/homepage/nlptools
百度NLP开源工具集GitHub地址:
github.com/PaddlePaddle/models/tree/develop/PaddleNLP
百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。