热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

DeepMind推出更难的机器阅读理解数据集,要让AI读懂整本书

夏乙发自凹非寺量子位出品|公众号QbitAI在机器阅读理解界的ImageNet——SQuAD挑战赛中,排在前几名的算法,都能拿到八十多分的成绩。可是,为什么
夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI

在机器阅读理解界的ImageNet——SQuAD挑战赛中,排在前几名的算法,都能拿到八十多分的成绩。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

可是,为什么我们依然觉得机器不太听/看得懂人话?

科学研究界有句老话说得好,世界上最远的距离,就是从实验环境到工程实际。

这句话是量子位现编的,不过现有的这些阅读理解数据集,的确和现实有一些距离。用DeepMind最近一篇论文里的话来说,它们“不能测试出阅读理解必要的综合方面”。

为了给算法准备一套不那么小儿科的试题,DeepMind今天发布了一个难度更高的阅读理解任务和数据集:NarrativeQA

更长的文档,更难的问题

DeepMind说,NarrativeQA是第一个基于整本书或整个剧本的大规模问答数据集

它最大的特点,就是其中大部分问题不能仅靠文档表面的模式匹配和凸显来回答,而是至少要读上几段内容,这几段内容甚至会分布在故事的各个部分。要正确答出问题,算法必须真的理解文档所讲的故事。

其实,测试机器阅读理解能力的数据集已经有不少。

比如我们在文章开头提到的SQuAD挑战赛就有同名数据集,是斯坦福大学2016年发布的,包含从536个Wikipedia条目中提取的23000个段落,10.8万个人工生成的问题。其他数据集还有以童书为阅读材料的Children’s Book Test (CBT)、BookTest,小学水平的MCTest,新闻构成的CNN/Daily Mail、NewsQA,以及搜出来的文章组成的MS MARCO和SearchQA。

DeepMind研究了这些数据集,发现他们有的规模太小或者不够自然,就算比较自然的数据集,难度也不够,里边大部分问题根据文章中一两句话,就能回答出来。

基于这些数据集存在的问题,他们在设计NarrativeQA时,先确定了几个必需的特质:要有很多问答对,这些问答要基于大量文档或者少量的长文档,问答需要是自然、自由、人工生成的,回答问题需要参考文档中的几处内容或者一长段话。他们还希望数据集的标注者不要用文档中的话来回答问题,而是换个说法,或者要考虑到文档中实体、地点、事件之间较高层次的关系。

0?wx_fmt=png

最终,他们的NarrativeQA数据集包含1572个故事和46765个问题。

数据集中的故事文档基本是书和电影剧本,书来自古腾堡计划中的电子书,而电影剧本是从网上抓取来的。数量虽少,但是与其他数据集相比,这些文档都非常长,最长的有430061个token(也就是一本几十万字的书),而且有着不错的词汇覆盖面和多样性。

而其中的问答对,是亚马逊众包平台Mechanical Turk上的标注员根据这些书和剧本的维基百科摘要写出来的,每个文档大约对应着30对问答。

0?wx_fmt=png

NarrativeQA中大部分问题都是“WH-”开头的,也就是“什么、谁、为什么、怎么、哪里、哪个、多少”等等。

而其中的回答,有44.05%来自文档概要,29.57%来自文档本身。

0?wx_fmt=png

NarrativeQA数据集包含的故事中,书和剧本所占的比例差不多。整个数据集约70%被划分到训练集,7.5%被划分到验证集,22.5%被划分到测试集。

相关论文

0?wx_fmt=png


The NarrativeQA Reading Comprehension Challenge

作者:
Tomáš Kočiský, Jonathan Schwarz, Phil Blunsom, Chris Dyer, Karl Moritz Hermann, Gábor Melis, Edward Grefenstette

地址:
https://www.arxiv-vanity.com/papers/1712.07040v1/

数据集下载

DeepMind自己公布了一个GitHub地址:
https://github.com/deepmind/narrativeqa

不过,这里只有NarrativeQA中文档的名称、链接、维基百科概要、问题和答案,并没有这些文档的全文,只给出了抓取这些文档所需要的脚本。

纽约大学的NLP专家Kyunghyun Cho表示这不能忍……他说,互联网是动态的,网页总在变,脚本说不定哪天就不管用了。

保险起见,他抓取了数据集中该有的所有文档,上传到了Google Drive。

地址:
https://drive.google.com/file/d/19ol41J8Obu-0bp5eOcaDqtt-dR_syrU-/view

量子位搬了一份到度娘的网盘,在公众号QbitAI对话界面回复“NarrativeQA”提货。

活动报名

0?wx_fmt=jpeg

加入社群

量子位AI社群12群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

0?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



推荐阅读
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 20211101CleverTap参与度和分析工具功能平台学习/实践
    1.应用场景主要用于学习CleverTap的使用,该平台主要用于客户保留与参与平台.为客户提供价值.这里接触到的原因,是目前公司用到该平台的服务~2.学习操作 ... [详细]
  • 【MicroServices】【Arduino】装修甲醛检测,ArduinoDart甲醛、PM2.5、温湿度、光照传感器等,数据记录于SD卡,Python数据显示,UI5前台,微服务后台……
    这篇文章介绍了一个基于Arduino的装修甲醛检测项目,使用了ArduinoDart甲醛、PM2.5、温湿度、光照传感器等硬件,并将数据记录于SD卡,使用Python进行数据显示,使用UI5进行前台设计,使用微服务进行后台开发。该项目还在不断更新中,有兴趣的可以关注作者的博客和GitHub。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • 使用在线工具jsonschema2pojo根据json生成java对象
    本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具,用户只需将json字符串复制到输入框中,即可自动将其转换成java对象。该工具还能解析列表式的json数据,并将嵌套在内层的对象也解析出来。本文以请求github的api为例,展示了使用该工具的步骤和效果。 ... [详细]
  • Google Play推出全新的应用内评价API,帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论,这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论,以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论,提升用户体验。 ... [详细]
  • 拥抱Android Design Support Library新变化(导航视图、悬浮ActionBar)
    转载请注明明桑AndroidAndroid5.0Loollipop作为Android最重要的版本之一,为我们带来了全新的界面风格和设计语言。看起来很受欢迎࿰ ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 本文详细介绍了MySQL表分区的创建、增加和删除方法,包括查看分区数据量和全库数据量的方法。欢迎大家阅读并给予点评。 ... [详细]
  • 本文介绍了使用cacti监控mssql 2005运行资源情况的操作步骤,包括安装必要的工具和驱动,测试mssql的连接,配置监控脚本等。通过php连接mssql来获取SQL 2005性能计算器的值,实现对mssql的监控。详细的操作步骤和代码请参考附件。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
author-avatar
yulongguxiang
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有