热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

AI大牛周明打造的轻量“孟子模型”开源!靠10亿参数冲上CLUE榜第三,可用于新闻分类、文案生成...

明敏发自凹非寺量子位报道|公众号QbitAI只用10亿参数就杀进中文自然语言理解CLUE榜单前三的孟子模型,现在开源了!其打造团队澜舟科技-创新工场最新
明敏 发自 凹非寺
量子位 报道 | 公众号 QbitAI

只用10亿参数就杀进中文自然语言理解CLUE榜单前三的孟子模型,现在开源了!

fc3cfeb55efa61dd44062fbc41787341.png

其打造团队澜舟科技-创新工场最新宣布,基于孟子通用模型,他们将开源4个模型。

分别可用于文本分类、金融新闻分类、文案生成和图片描述等场景。

124b76658ee8b208a0c40bf6a8b7c50a.png

今年7月,这个由AI大牛周明率队打造的轻量级模型,一经发布就惊艳众人。

它以十亿参数完成此前百亿、千亿参数模型创造的纪录,打破近年来CLUE榜单被腾讯、搜狗、华为、阿里达摩院轮番霸榜的格局。

截至目前,孟子模型仍旧是榜单前五中唯一非巨头企业推出的模型,且排名第三

下游任务表现出色

CLUE榜单可是自然语言理解玩家的必争之地,腾讯、搜狗、华为、阿里达摩院等更是轮番霸榜刷新纪录。

而他们的大模型动辄就是百亿、千亿级的参数,仅仅只有10亿参数的孟子模型,到底是如何杀出重围的呢?

我们不妨来了解一下孟子模型。

孟子模型是澜舟科技基于语言学信息融入和训练加速等方法,研发的系列模型。

由于与BERT保持一致的模型结构(Transformer),孟子模型可以快速替换现有的预训练模型。

它可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,在文本分类、阅读理解等各类任务上表现出色。

具体来看,这次开源的4个模型架构如下:

e8a64db40e71239303a1263534076dca.png

对应各个场景来看,在金融方面的任务中,孟子模型表现优秀:

e973389f06cfd8811128c4d2bd248d72.png

生成营销文案上,相对于GPT而言,孟子模型能够生成的语言明显更为丰富。

a04bce0e7ce8082f63d78c3db35acfd6.png

描述图片内容上也更为准确、细致,几乎看不出AI的痕迹。

bb2ba99019f82e304b0552667e89ec9d.png

四两拨千斤

与其他中文语言模型相比,孟子模型最大的特点就是小而精

它采用轻量化训练策略,致力于构建十亿参数级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本的落地现实业务场景。

与此同时,孟子还使用人类先验知识引导模型训练,让模型更高效率获得知识。

孟子模型具备顶尖的语言理解能力,在权威CLUE中文理解评测的总排行榜,分数突破84分,逼近人类基准分数(85.61)。

另外,基于T5-style的端到端生成的训练范式,同步适配BERT-style的判定式架构,让孟子模型便于适配行业应用,可以覆盖广泛业务场景。

在模型架构上,“孟子”也进行了全方位改进。

01664347aca55d6b40329926dcecde6e.png

具体有四方面:

  • 模型结构方面,将语义角色、词性标注等语言学特征融合到Embedding表示中,基于句法约束引入注意力机制中,从而提升模型对语言学知识的建模能力。

  • 训练策略上,引入基于实体知识和Discourse的Mask机制,强化模型对语言成分和语篇关系的表征。

  • 为进一步提高训练效率,使用了大模型蒸馏和初始化小模型策略。

  • 为更好地将孟子模型适应垂直领域如金融、营销,使用了领域数据继续训练并构造相应的提示模版(Prompt),取得了明显的性能提升。

周明:未来十年孕育认知智能大机遇

最后,我们再来介绍一下孟子模型的幕后团队——澜舟科技

它是由创新工厂孵化的一家认知智能公司。

公司创始人——周明博士。

38cdc8fc32a046cf746ac8d6b6135141.png

AI领域内,周明已不用过多介绍,他是公认的世界级AI科学家,自然语言处理领域的代表性人物。

周明博士在2020年加盟创新工场,担任创新工场首席科学家。

就在刚刚开幕的2021杭州·云栖大会上,我们也看到了周明博士的身影。

基于自己多年的产学研认识,他分享了自己对于认知智能的一些思考。

adad14a965df6ac6a974ba03dc0f84f1.png

周明博士提到,目前神经网络的方法依赖大规模的标注数据做端到端训练。这种黑箱式系统缺乏解释能力、也不具备常识推理能力。

我们人脑在处理熟悉任务的时候,都是依赖直觉的,这有点对应预训练模型或者深度学习;

在处理新事物时,人脑就要沉静下来,用自己的知识去推理,这更像是符号计算。

他认为,当下的深度学习应该思考如何用一个模型将这二者的优势结合,也就是把数据和知识融合起来解决问题。

此外周明博士还提出,现在深度学习训练新任务,要学习所有的能力。但人类在应对新任务时,往往只是基于基础能力做了小部分的调整。

所以,如何模拟人脑、设计一系列基础能力和相应微调机制,是深度学习要思考的问题。

提及对AI行业的展望,周明博士表示:

AI正由感知智能快速向认知智能迈进,未来的十年孕育着巨大的认知智能发展和创新的机遇。

与此同时,他还在分享中透露,澜舟科技从开源起步,正在过渡到SaaS、订制和App。目前已与国内外几十所著名高校和十余个相关领域的头部企业建立了稳定的合作关系。

传送门

目前,澜舟科技已经发布了项目开源地址和技术报告,地址如下:

项目地址:https://github.com/Langboat/Mengzi
技术报告:https://arxiv.org/abs/2110.06696

参考链接:
https://mp.weixin.qq.com/s/2vFPhgX4ouETOPMbE_Sy9g



推荐阅读
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 读手语图像识别论文笔记2
    文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1(手语识别背景和方法)一、前言一句:“做完了&#x ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
  • ICRA2019最佳论文  Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio
    文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议:ICRA2019标题:《MakingSenseofVision ... [详细]
  • 程度|也就是_论文精读:Neural Architecture Search without Training
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了论文精读:NeuralArchitectureSearchwithoutTraining相关的知识,希望对你有一定的参考价值。 ... [详细]
author-avatar
用户d4k2wd8en1
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有