当前位置: 开发笔记 > 编程语言 > 正文

中国AI军团争霸机器阅读理解大赛，搜狗创下全球新纪录

作者：手机用户2702934510 | 来源：互联网 | 2023-07-31 12:56

本文经AI新媒体量子位（公众号ID:qbitai）授权转载，转载请联系出处本文约2500字，建议阅读5分钟。最近搜狗AI团队

640?wx_fmt&＃61;png

本文经AI新媒体量子位&＃xff08;公众号ID:qbitai &＃xff09;授权转载&＃xff0c;转载请联系出处

本文约2500字&＃xff0c;建议阅读5分钟。

最近搜狗AI团队在CoQA机器阅读理解大赛高分夺冠&＃xff0c;本文为你介绍CoQA、搜狗模型以及未来前景。

全球AI竞技场&＃xff0c;现在全方位成为中国公司实力展示台。

这不&＃xff0c;2018年迭代上线的CoQA机器阅读理解大赛&＃xff0c;一番你争我赶之后&＃xff0c;最终还是形成了中国AI力量争霸之势。

而且更可喜的是&＃xff0c;就在最近&＃xff0c;搜狗AI团队脱颖而出&＃xff0c;不仅高分夺冠&＃xff0c;而且全面刷新CoQA所有评价指标。

640?wx_fmt&＃61;png

不得不说&＃xff1a;威武~

搜狗夺冠CoQA

此次夺冠的搜狗团队来自搜狗搜索AI研究团队&＃xff0c;模型则是BERT &＃43; Answer Verification(单一模型)。

从9月份发布到现在&＃xff0c;CoQA大赛已经吸引了国内外众多知名研究机构和高校&＃xff0c;包括微软、讯飞、清华、复旦&＃xff0c;斯坦福等等&＃xff0c;竞争异常激烈。

在不到一个月时间内&＃xff0c;CoQA挑战赛榜首已经3次易主。

1月3日&＃xff0c;搜狗以82.8%的成绩稳稳占据榜首位置&＃xff0c;全面刷新CoQA所有评价指标。

并且&＃xff0c;搜狗的算法是CoQA的领域外&＃xff08;out-of-domain&＃xff09;数据集上表现首个超过80&＃xff05;的模型。

CoQA之难

CoQA大赛究竟有何特别之处&＃xff1f;

如果非NLP从业者&＃xff0c;对于CoQA可能会有些许陌生。你可能会好奇&＃xff0c;不到半年的时间里&＃xff0c;为何各大公司、高校都在努力攻克CoQA&＃xff1f;

这就要从去年自然语言处理&＃xff08;NLP&＃xff09;领域的快速发展谈起。

2018年是NLP取得重大进展的一年&＃xff0c;BERT出现&＃xff0c;横扫各大NLP测试&＃xff0c;刷新了SQuAD成绩。

除了算法以外&＃xff0c;NLP领域的一项重要应用问答系统&＃xff08;QA&＃xff09;也在这一年悄然改变。

SQuAD测试已经逐渐跟不上智能问答系统的发展&＃xff0c;行业急需一个更具有挑战性、更智能的QA挑战。取而代之的是今年8月上线的CoQA。

如果说SQuAD像是做英文阅读理解&＃xff0c;那CoQA更像是模拟真实的人类对话。

CoQA包含从8000多个对话中收集的127,000多个问答。每个对话都是通过将两个人配对&＃xff0c;以问答对话聊天形式收集的。

CoQA的独特之处在于&＃xff1a;

问题不是SQuAD的一问一答&＃xff0c;而是多轮对话形式的&＃xff1b;
答案可以是自由格式的文本&＃xff1b;
每个答案还附有段落中的证据子序列&＃xff1b;4、测试集包含七个不同领域的资料。

QA多轮对话更类似于人类&＃xff0c;应用前景广阔。比如去年谷歌发布的AI打电话&＃xff0c;甚至通过图灵测试&＃xff0c;就是QA多轮对话的一个落地场景。

另外&＃xff0c;比赛官方提供的训练数据来自5个领域的文章&＃xff0c;而测试集还多出两个其他领域&＃xff08;reddit论坛、science网站&＃xff09;的文章&＃xff0c;更考验NLP“举一反三”的能力。

比赛榜单包含两个部分&＃xff0c;领域内&＃xff08;In-domain&＃xff09;是指测试集“考题”与训练集来自相同领域&＃xff0c;领域外&＃xff08;out-of-domain&＃xff09;是测试集“考题”来自训练集之外的2个领域&＃xff0c;测试的是模型推理能力。

搜狗这两个测试的得分分别是83.8和80.2&＃xff0c;都是排名第一&＃xff0c;并且两部分分差在所有参赛团队中最小&＃xff0c;体现了搜狗模型在阅读理解上的通用泛化能力。

如何评价搜狗模型&＃xff1f;

没有随随便便的成功。

从去年BERT模型横空出世以来&＃xff0c;搜狗就开始思索将其与自家的研究成果结合起来。

本次参加CoQA比赛的模型就是BERT与Answer Verification的结合。搜狗创新性地在BERT的输出层中加入推理判断网络&＃xff0c;用于解决原文中无法直接找到答案的情形。

这个推理判断网络就是搜狗采用的有证据支撑的“答案抽取网络”&＃xff08;Answer Verification&＃xff09;。它能应用注意力&＃xff08;Attention&＃xff09;和自注意力&＃xff08;Self-attention&＃xff09;机制&＃xff0c;将对话问题和材料进行整体编码&＃xff0c;推理出答案。

搜狗认为人在阅读理解的过程中&＃xff0c;寻找支撑答案的文本和选择精准答案的过程是相互交织进行的&＃xff0c;因此“答案抽取网络”也效仿人类的思考模式&＃xff0c;使得答案抽取有更强的上下文支撑。

为了让AI对当前轮对话问题有更好地理解&＃xff0c;搜狗模型将历史对话的问题和答案同当前轮问题一起输入到网络中&＃xff0c;从而提升在多轮对话中的表现。

同时&＃xff0c;搜狗在训练中对BERT的预训练参数进行了微调。

实验结果表明&＃xff0c;搜狗团队的上述设计策略显著提升了在CoQA测试上的效果。

这种算法能综合考虑答案抽取和证据对答案的支撑作用&＃xff0c;同时融入对话历史的问题和答案信息&＃xff0c;极大提升了对当前问题的理解和回答的准确性。其有两大亮点&＃xff1a;

1) 有证据支撑的答案选择&＃xff1a;

人类做阅读理解是一个找回答了问题的句子和提炼精确答案同时进行的过程&＃xff0c;搜狗的算法创新性的模拟了这一过程&＃xff0c;做到了有证据文本支撑的答案选择。

2) 推理类答案的理&＃xff1a;

CoQA比赛的问题中&＃xff0c;有相当部分的问题是原文中无直接答案&＃xff0c;需要通过推理才能得出。搜狗的算法将推理转换成分类问题&＃xff0c;通过问题-材料的整体编码&＃xff0c;找到推理答案。

前沿技术已落地

当然&＃xff0c;或许你也好奇&＃xff0c;搜狗拿下这样的“冠军”有何用&＃xff1f;

搜狗方面回答&＃xff0c;从去年9月决定参赛到称霸榜首&＃xff0c;搜狗投入大量时间和人力物力参加CoQA大赛&＃xff0c;并非只看重“跑分”。

因为搜狗一直坚持探索以语言为核心的人工智能战略&＃xff0c;AI问答之于搜狗的重要意义&＃xff0c;不言自明。

而且以技术和产品知名的搜狗&＃xff0c;已将前沿技术成果在产品中落地。

搜狗搜索的智能回答

智能音箱

比如去年大热的智能音箱&＃xff0c;就是问答服务的一个天然应用场景&＃xff0c;BAT等公司都在布局。去年华为也杀入战场&＃xff0c;而背后正是有搜狗问答技术的支持。

然而世面上不少智能音箱产品&＃xff0c;只能用在简单问答的鸡肋场景。

640?wx_fmt&＃61;png

华为AI音箱&＃xff0c;在各种方案PK后&＃xff0c;选择了搭载搜狗的智能问答服务。用户只需用自然语言提问&＃xff0c;系统即可“听懂”用户的话&＃xff0c;并直接“回复”用户想要的信息。让智能音箱真正做到高效便捷&＃xff0c;而不是让人去迁就产品。

这就是前沿技术&＃43;快速产品落地能力的牛刀小试。

专业搜索

此外&＃xff0c;更重要的是搜狗核心业务的进一步强化。

搜索是搜狗的起点&＃xff0c;王小川相信搜索的未来是问答&＃xff0c;而机器阅读理解是现今问答技术发展的核心之一。

640?wx_fmt&＃61;png

将AI问答用在专业领域的搜索会擦出怎样的火花&＃xff1f;

目前搜狗在法律、医疗领域做出了尝试。

在法律领域&＃xff0c;搜狗律师问答机器人具备逻辑分析和推理能力&＃xff0c;能够基于事实和法律诉求&＃xff0c;给用户提出可能的判决结果、法律建议或相似案例等丰富的咨询结果&＃xff0c;充当人类的法律小顾问。

在医学领域&＃xff0c;搜狗搜索智能分诊功能&＃xff0c;首创引入了基于人工智能技术的智能诊断助手&＃xff0c;模拟医生与病人对话的模式与用户进行病情沟通&＃xff0c;并提供可能的疾病范围&＃xff0c;供用户参考。

全球视角看未来

如上文所述&＃xff0c;除了搜狗以外&＃xff0c;参加CoQA的还有微软、艾伦研究院&＃xff08;AI2&＃xff09;、斯坦福大学、清华大学COAI实验室、北京大学、复旦大学、北京邮电大学、中国科技大学等知名顶级公司和机构。

全球科技公司都在研发前沿的问答技术。去年谷歌的AI打电话订餐轰动全球&＃xff0c;标志着AI已经开始攻克图灵测试。

刷榜夺冠CoQA大赛&＃xff0c;对搜狗来说只是技术实力证明的牛刀小试&＃xff0c;也是搜狗搜索团队在前沿技术研究、应用和产品落地方面的答卷。

智能问答领域的头雁争夺&＃xff0c;未来还会更激烈。

CoQA大赛是起点&＃xff0c;但也是目前该领域全球范围内最权威的参照之一。

搜狗夺冠&＃xff0c;展示的不仅是AI领域头号玩家的潜力和能力&＃xff0c;也是对中国AI实力的又一次介绍。

在全球科技进程中&＃xff0c;这是大历史性的一刻。

推荐阅读

io
意图识别（规则模板解析、深度学习意图识别）

一、意图识别应用领域1、搜索引擎2、对话系统：基于意图识别了解用户想要什么业务或者闲聊，并采用不用的子模型来处理1.1闲聊技术：闲聊机 ... [详细]

蜡笔小新 2023-09-06 05:15:59
io
智能投顾机器人：创业者如何应对新挑战？

随着智能投顾技术在二级市场的兴起，针对一级市场的智能投顾也逐渐崭露头角。近日，一款名为阿尔妮塔的人工智能创投机器人正式发布，它将如何改变投资人的工作方式和创业者的融资策略？ ... [详细]

蜡笔小新 2024-12-20 16:46:18
io
深入剖析JVM垃圾回收机制

本文详细探讨了Java虚拟机（JVM）中的垃圾回收机制，包括其意义、对象判定方法、引用类型、常见垃圾收集算法以及各种垃圾收集器的特点和工作原理。通过理解这些内容，开发人员可以更好地优化内存管理和程序性能。 ... [详细]

蜡笔小新 2024-12-20 17:24:41
io
江苏启动鲲鹏生态产业园首批应用孵化项目

2019年9月19日，在华为全联接大会上，江苏鲲鹏生态产业园正式启动了首批鲲鹏应用孵化项目。南京市委常委、江北新区党工委专职副书记罗群等多位嘉宾出席并见证了这一重要时刻。 ... [详细]

蜡笔小新 2024-12-19 21:22:14
io
Google排名优化－面向Google(Search Engine Friendly)的URL设计

Google排名优化－面向Google(Search Engine Friendly)的URL设计 ... [详细]

蜡笔小新 2024-12-19 16:16:50
sum
牛顿·拉普逊和塞——谁能给我解释一下这三条线吗 - Newton Raphson with SSE2 - can someone explain me these 3 lines

Imreadingthisdocument:http:software.intel.comen-usarticlesinteractive-ray-tracing我正在阅读这个文 ... [详细]

蜡笔小新 2024-12-16 14:16:21
io
探讨PHP自定义MD5加密函数的实现问题

本文分析了一个基于ASP代码改编的PHP MD5加密函数，指出其存在的问题，并提供了解决方案。通过对比ASP和PHP在处理相同数据时的不同表现，探讨了两种语言在实现MD5算法上的细微差别。 ... [详细]

蜡笔小新 2024-12-15 18:00:49
io
基于OpenWrt构建首个'Hello World' IPK应用

本文介绍如何在Ubuntu环境下为OpenWrt系统构建并安装首个'Hello World'应用程序的IPK包。文章不仅涵盖了基本的环境搭建，还详细说明了代码编写、Makefile配置及最终的IPK包生成与安装过程。 ... [详细]

蜡笔小新 2024-12-15 13:28:28
io
400string(99) php,PHP: 字符串Manual

addcslashes—以C语言风格使用反斜线转义字符串中的字符addslashes—使用反斜线引用字符串bin2hex—函数把包含数据的二进制字符串转换为十六进制值chop—rt ... [详细]

蜡笔小新 2024-12-15 12:31:43
sum
使用Rviz将ROS bag文件中的点云数据可视化

本文档提供了一个详细的步骤指南，介绍如何使用Rviz工具将ROS bag文件中存储的点云数据进行可视化处理。 ... [详细]

蜡笔小新 2024-12-15 11:09:19
io
[新品速递]搜狗刚刚推出了搜狗手机输入法

10月15日，著名的搜索引擎技术服务公司搜狗(Sogou.com)正式对外发布了“搜狗手机输入法1.00版”，这是搜狗输入法家族继拼音输入法、五笔输入法之后的又一名新成员，它将搜狗家族的领域由P ... [详细]

蜡笔小新 2023-09-25 20:11:35
io
搜狗快速收录方法分享搜狗秒收录技巧

搜狗网站收录是SEO工作中非常重要的部分，如果网站不被搜索引擎收录的话，就不会有较好的排名，更不会有流量。那么我们应该如何让搜狗搜索引擎快 ... [详细]

蜡笔小新 2023-09-25 10:19:16
io
信息搜索的基本技能总结

获得所需要的信息数据几乎成为大部分人工作中重要的一个部分，这篇文章总结和收集了一些常用的方法，用于自查和分享。活用搜索引擎常用搜索引擎搜索引擎是信息 ... [详细]

蜡笔小新 2023-09-18 11:32:25
io
企业微信发布，看Saas产品的破局与增长逻辑

昨日上午10点，倍受关注的企业微信1.0低调上线。企业微信的切入，将给企业服务市场带来怎样的变动?我将从企业服务市场行业的角度出发，给大家 ... [详细]

蜡笔小新 2023-09-13 21:55:42
io
Sinatra与Ramaze：选择轻量级Ruby框架时的考量

在寻找轻量级Ruby Web框架的过程中，您可能会遇到Sinatra和Ramaze。两者都以简洁、轻便著称，但它们之间存在一些关键区别。本文将探讨这些差异，并提供详细的分析，帮助您做出最佳选择。 ... [详细]

蜡笔小新 2024-12-20 11:00:15

手机用户2702934510

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章