热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

中国AI军团争霸机器阅读理解大赛,搜狗创下全球新纪录

本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处本文约2500字,建议阅读5分钟。最近搜狗AI团队

640?wx_fmt=png

本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处

本文约2500字,建议阅读5分钟

最近搜狗AI团队在CoQA机器阅读理解大赛高分夺冠,本文为你介绍CoQA、搜狗模型以及未来前景。


全球AI竞技场,现在全方位成为中国公司实力展示台。


这不,2018年迭代上线的CoQA机器阅读理解大赛,一番你争我赶之后,最终还是形成了中国AI力量争霸之势。


而且更可喜的是,就在最近,搜狗AI团队脱颖而出,不仅高分夺冠,而且全面刷新CoQA所有评价指标。


640?wx_fmt=png


不得不说:威武~


搜狗夺冠CoQA


此次夺冠的搜狗团队来自搜狗搜索AI研究团队,模型则是BERT + Answer Verification(单一模型)。


从9月份发布到现在,CoQA大赛已经吸引了国内外众多知名研究机构和高校,包括微软、讯飞、清华、复旦,斯坦福等等,竞争异常激烈。


在不到一个月时间内,CoQA挑战赛榜首已经3次易主。


1月3日,搜狗以82.8%的成绩稳稳占据榜首位置,全面刷新CoQA所有评价指标。


并且,搜狗的算法是CoQA的领域外(out-of-domain)数据集上表现首个超过80%的模型。


CoQA之难


CoQA大赛究竟有何特别之处?


如果非NLP从业者,对于CoQA可能会有些许陌生。你可能会好奇,不到半年的时间里,为何各大公司、高校都在努力攻克CoQA?


这就要从去年自然语言处理(NLP)领域的快速发展谈起。


2018年是NLP取得重大进展的一年,BERT出现,横扫各大NLP测试,刷新了SQuAD成绩。


640?wx_fmt=png


除了算法以外,NLP领域的一项重要应用问答系统(QA)也在这一年悄然改变。


SQuAD测试已经逐渐跟不上智能问答系统的发展,行业急需一个更具有挑战性、更智能的QA挑战。取而代之的是今年8月上线的CoQA。


如果说SQuAD像是做英文阅读理解,那CoQA更像是模拟真实的人类对话。


CoQA包含从8000多个对话中收集的127,000多个问答。每个对话都是通过将两个人配对,以问答对话聊天形式收集的。


CoQA的独特之处在于:


  1. 问题不是SQuAD的一问一答,而是多轮对话形式的;

  2. 答案可以是自由格式的文本;

  3. 每个答案还附有段落中的证据子序列;4、测试集包含七个不同领域的资料。


QA多轮对话更类似于人类,应用前景广阔。比如去年谷歌发布的AI打电话,甚至通过图灵测试,就是QA多轮对话的一个落地场景。


640?wx_fmt=png


另外,比赛官方提供的训练数据来自5个领域的文章,而测试集还多出两个其他领域(reddit论坛、science网站)的文章,更考验NLP“举一反三”的能力。


比赛榜单包含两个部分,领域内(In-domain)是指测试集“考题”与训练集来自相同领域,领域外(out-of-domain)是测试集“考题”来自训练集之外的2个领域,测试的是模型推理能力。


搜狗这两个测试的得分分别是83.8和80.2,都是排名第一,并且两部分分差在所有参赛团队中最小,体现了搜狗模型在阅读理解上的通用泛化能力。


如何评价搜狗模型?


没有随随便便的成功。


从去年BERT模型横空出世以来,搜狗就开始思索将其与自家的研究成果结合起来。


本次参加CoQA比赛的模型就是BERT与Answer Verification的结合。搜狗创新性地在BERT的输出层中加入推理判断网络,用于解决原文中无法直接找到答案的情形。


这个推理判断网络就是搜狗采用的有证据支撑的“答案抽取网络”(Answer Verification)。它能应用注意力(Attention)和自注意力(Self-attention)机制,将对话问题和材料进行整体编码,推理出答案。


搜狗认为人在阅读理解的过程中,寻找支撑答案的文本和选择精准答案的过程是相互交织进行的,因此“答案抽取网络”也效仿人类的思考模式,使得答案抽取有更强的上下文支撑。


为了让AI对当前轮对话问题有更好地理解,搜狗模型将历史对话的问题和答案同当前轮问题一起输入到网络中,从而提升在多轮对话中的表现。


同时,搜狗在训练中对BERT的预训练参数进行了微调。


实验结果表明,搜狗团队的上述设计策略显著提升了在CoQA测试上的效果。


这种算法能综合考虑答案抽取和证据对答案的支撑作用,同时融入对话历史的问题和答案信息,极大提升了对当前问题的理解和回答的准确性。其有两大亮点:


1) 有证据支撑的答案选择:


人类做阅读理解是一个找回答了问题的句子和提炼精确答案同时进行的过程,搜狗的算法创新性的模拟了这一过程,做到了有证据文本支撑的答案选择。


2) 推理类答案的理:


CoQA比赛的问题中,有相当部分的问题是原文中无直接答案,需要通过推理才能得出。搜狗的算法将推理转换成分类问题,通过问题-材料的整体编码,找到推理答案。


前沿技术已落地


当然,或许你也好奇,搜狗拿下这样的“冠军”有何用?


搜狗方面回答,从去年9月决定参赛到称霸榜首,搜狗投入大量时间和人力物力参加CoQA大赛,并非只看重“跑分”。


因为搜狗一直坚持探索以语言为核心的人工智能战略,AI问答之于搜狗的重要意义,不言自明。


而且以技术和产品知名的搜狗,已将前沿技术成果在产品中落地。


640?wx_fmt=png

搜狗搜索的智能回答

智能音箱


比如去年大热的智能音箱,就是问答服务的一个天然应用场景,BAT等公司都在布局。去年华为也杀入战场,而背后正是有搜狗问答技术的支持。


然而世面上不少智能音箱产品,只能用在简单问答的鸡肋场景。


640?wx_fmt=png


华为AI音箱,在各种方案PK后,选择了搭载搜狗的智能问答服务。用户只需用自然语言提问,系统即可“听懂”用户的话,并直接“回复”用户想要的信息。让智能音箱真正做到高效便捷,而不是让人去迁就产品。


这就是前沿技术+快速产品落地能力的牛刀小试。


专业搜索


此外,更重要的是搜狗核心业务的进一步强化。


搜索是搜狗的起点,王小川相信搜索的未来是问答,而机器阅读理解是现今问答技术发展的核心之一。


640?wx_fmt=png


将AI问答用在专业领域的搜索会擦出怎样的火花?


目前搜狗在法律、医疗领域做出了尝试。


在法律领域,搜狗律师问答机器人具备逻辑分析和推理能力,能够基于事实和法律诉求,给用户提出可能的判决结果、法律建议或相似案例等丰富的咨询结果,充当人类的法律小顾问。


在医学领域,搜狗搜索智能分诊功能,首创引入了基于人工智能技术的智能诊断助手,模拟医生与病人对话的模式与用户进行病情沟通,并提供可能的疾病范围,供用户参考。


全球视角看未来


如上文所述,除了搜狗以外,参加CoQA的还有微软、艾伦研究院(AI2)、斯坦福大学、清华大学COAI实验室、北京大学、复旦大学、北京邮电大学、中国科技大学等知名顶级公司和机构。


全球科技公司都在研发前沿的问答技术。去年谷歌的AI打电话订餐轰动全球,标志着AI已经开始攻克图灵测试。


刷榜夺冠CoQA大赛,对搜狗来说只是技术实力证明的牛刀小试,也是搜狗搜索团队在前沿技术研究、应用和产品落地方面的答卷。


智能问答领域的头雁争夺,未来还会更激烈。


CoQA大赛是起点,但也是目前该领域全球范围内最权威的参照之一。


搜狗夺冠,展示的不仅是AI领域头号玩家的潜力和能力,也是对中国AI实力的又一次介绍。


在全球科技进程中,这是大历史性的一刻。


640?wx_fmt=jpeg640?wx_fmt=jpeg


推荐阅读
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 聊聊 中国人工智能科技产业 区域竞争力分析及趋势
    原文链接:聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数(2021ÿ ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • 颜色迁移(reinhard VS welsh)
    不要谈什么天分,运气,你需要的是一个截稿日,以及一个不交稿就能打爆你狗头的人,然后你就会被自己的才华吓到。------ ... [详细]
  • 老牌医药收割AI红利:先投个15亿美元抢中国人才
    萧箫发自凹非寺量子位报道|公众号QbitAI没想到,一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场,能看见不少熟悉的身影, ... [详细]
  • Ansem 最新雄文:软着陆后,加密市场下阶段趋势与核心叙事
    市场最糟糕的时候已经过去,以太坊合并前不太会看到新的低点;但仍需来自关注宏观市场的不确定风险。撰文:Ansem ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • SLAM优秀开源工程最全汇总
    https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统,可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 拯救万千学子于水深火热之中!Facebook开源无梯度优化工具
    乾明发自凹非寺量子位出品|公众号QbitAI机器学习啥最苦?十有八九找参数!不少研究生,都被卡在这个环节上,久久不能毕业。现 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 本文由编程笔记#小编整理,主要介绍了关于数论相关的知识,包括数论的算法和百度百科的链接。文章还介绍了欧几里得算法、辗转相除法、gcd、lcm和扩展欧几里得算法的使用方法。此外,文章还提到了数论在求解不定方程、模线性方程和乘法逆元方面的应用。摘要长度:184字。 ... [详细]
author-avatar
手机用户2702934510
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有