热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

AI能写论文了!华人本科生发明AI论文生成器

https:www.toutiao.coma6694829950148542980【新智元导读】AI写论文达到了几近完善的程度!伦斯勒理工学院大四学生

https://www.toutiao.com/a6694829950148542980/


AI能写论文了!华人本科生发明AI论文生成器

【新智元导读】 AI写论文达到了几近完善的程度!伦斯勒理工学院大四学生王清昀等研究人员最新开发PaperRobot,能够从产生点子、写摘要、写结论到写“未来研究”,甚至它还能为你写出下一篇论文的题目。

还在为写论文想不出好点子而发愁吗?

不用愁了!伦斯勒理工学院、斯坦福大学等的研究人员最新开发的PaperRobot,提供从 产生idea、写摘要、写结论到写“未来研究”的一站式服务 !甚至它还能为你写出下一篇论文的题目,从此 论文无忧

这篇题为 PaperRobot: Incremental Draft Generation of Scientific Ideas 的论文已被ACL 2019录取,近日在推特上引起大量关注。

AI能写论文了!华人本科生发明AI论文生成器

谷歌大脑科学家David Ha(hardmaru)评价:“ May a thousand (incremental) ideas bloom. 

大四华人一作发明AI「论文生成」神器

论文作者来自伦斯勒理工学院、DiDi实验室、伊利诺伊大学香槟分校、北卡罗来纳大学教堂山分校和斯坦福大学。其中,第一作者 Qingyun Wang (王清昀) 是伦斯勒理工学院的大四本科生(今年8月开始讲进入UIUC读计算机科学PhD)。

这不是王清昀同学第一次研究AI写论文,早在2017年他的“ 论文摘要生成 ”研究也曾引起热议。王清昀同学中学在杭州第二中学就读,从小就是“发明小达人”,取得专利的发明就有2个。

AI能写论文了!华人本科生发明AI论文生成器

论文地址:

https://arxiv.org/pdf/1905.07870.pdf

PaperRobot是怎样自动写论文的呢?简单来说,它从以前的论文中提取背景知识图谱,产生新的科学思想,最后写出论文的关键要素。

它的工作流程包括:

(1)对目标领域的 大量人类撰写的论文 进行深入的理解,并 构建全面的背景知识图 (knowledge graphs, KGs);

(2)通过结合从图注意力(graph attention)和上下文文本注意力(contextual text attention), 从背景知识库KG中预测链接,从而产生新想法

(3)基于memory-attention网络, 逐步写出一篇新论文的一些关键要素 :从输入标题和预测的相关实体,生成一篇 摘要 ;从摘要生成 结论 和未来 工作 ;最后从未来工作生成 下一篇论文的标题

研究者对这个AI论文生产机进行了图灵测试:

PaperRobot生成生物医学领域论文的摘要、结论和未来工作部分,同时展示人类写作的同领域论文,要求一名生物医学领域的专家进行比较。结果显示,分别就摘要、结论和未来工作部分而言,在30%、24%和12%的情况下人类专家认为AI生成的比人类写作的更好。

至于这批AI研究人员为什么选择生物医学领域来做实验,原因很简单:生物医学论文很多,非常多!他们尝试了用自己领域(NLP)来做实验,结果并不理想(NLP的论文语料还不够多)。

接下来,新智元对这篇论文进行了译介:

简单3步,图网络+注意力机制,AI写论文甚至比人类好

我们的目标是打造一个论文机器人PaperRobot,来加速科学发现和生产,它的主要任务如下。

阅读现有的论文。

论文太多了。科学家们很难跟上井喷式的论文增长速度。例如,在生物医学领域,平均每年有超过50万篇论文被发表,仅2016年就有超过120万篇新论文发表,总论文数超过2600万篇(Van Noorden, 2014)。

然而,人类的阅读能力几乎是不变的。2012年,美国科学家估计,他们平均每年只能阅读264篇论文(5000篇论文中只读1篇),这个数字与他们在2005年进行的同样调查中报告的数据一致。

PaperRobot自动阅读所有可用的论文,构建背景知识图(KG),其中节点表示实体/概念,边表示这些实体之间的关系。

在本研究中,我们采用的是大量已发表的生物医学论文,提取实体及其关系来构建背景知识图。我们应用了Wei等人(2013)中提出的实体和关系提取系统,提取了3类实体(疾病,化学和基因)。然后,我们进一步将所有实体链接到CTD(比较遗传毒理学数据库),提取出133个子类型的关系,如标记/机制、治疗和提高表达。

图3是一个示例。

AI能写论文了!华人本科生发明AI论文生成器

图3:生物医学知识提取与链接预测示例(虚线表示预测的链接)

产生新的想法

科学发现可以看作是在知识图中创建新的节点或链接(links)。

创建新节点通常意味着通过一系列真实的实验室实验发现新的实体(如新的蛋白质),这对PaperRobot来说可能太难了。但是,使用背景知识图作为起点,自动地创建新的边是更容易的。

Foster等人(2015)的研究表明,640万篇生物医学和化学论文中,60%以上是增量式的工作。这启发我们通过预测背景知识图(KGs)中的新链接来自动地增加新想法和新假设。

我们提出了一种新的实体表示方法,结合了KG结构和非结构化上下文文本来进行链接预测。

如上面的图3所示,虚线表示了预测的链接,由于钙和锌在上下文文本信息和图结构上都相似,我们预测了钙的两个新邻居:CD14分子和神经纤毛蛋白2(neuropilin 2),它们是初始背景知识图中锌的邻居。

写一篇关于新想法的新论文

最后一步是把新想法清晰地传达给读者,这是一件非常困难的事情;事实上,许多科学家都是糟糕的作家(Pinker, 2014)。

使用一个新颖的memory-attention网络架构,基于输入的标题和预测的相关实体,PaperRobot自动写出了一篇新论文的摘要,然后进一步写出了结论部分和相关工作部分,最后,为后续论文写了新标题。

这个流程如图1所示。

AI能写论文了!华人本科生发明AI论文生成器

图1: PaperRobot论文写作流程

我们选择生物医学作为我们的目标领域,因为这一领域有大量的可用论文。

图灵测试表明,PaperRobot生成的输出内容有时比人工编写的内容更受欢迎;而且大多数论文摘要只需要领域专家进行少量编辑,就可以变得信息丰富、条理清晰。

让我们看看AI写的摘要:

Background:   Snail  is a multifunctional protein that plays an important role in the pathogenesis of  prostate cancer . However, it has been shown to be associated with poor prognosis. The purpose of this study was to investigate the effect of negatively on the expression of  maspin  in  human nasopharyngeal carcinoma  cell lines. Methods: Quantitative real-time PCR and western blot analysis were used to determine whether the demethylating agent was investigated by quantitative  RT-PCR  (qRT-PCR) and  Western blotting . Results showed that the binding protein plays a significant role in the regulation of  tumor  growth and progression.

PaperRobot的整体框架如图2所示。

AI能写论文了!华人本科生发明AI论文生成器

表1显示了从整个过程生成的示例。

AI能写论文了!华人本科生发明AI论文生成器

表1:人类写的论文与AI系统写的论文的比较(粗体字表示与主题相关的实体;斜体表示人工编辑)

(关于每个步骤的算法的详细介绍,请阅读原始论文。)

实验过程及结果

数据收集

我们从PMC开放存取子集中收集了生物医学论文。为人类书面论文引用一篇论文来构建新标题预测的ground truth,我们假设论文A的标题是从论文B的“结论和未来工作”中生成的。我们从1,687,060篇论文中构建了背景知识图,其中包括30,483个实体和875,698个关系。表2所示为详细数据统计。

AI能写论文了!华人本科生发明AI论文生成器

表2 论文写作统计结果

自动评估

以前的相关研究表明,自动评估长文本生成是一项重大挑战。在故事生成之后,我们使用METEOR来量度文章主题与给定标题的相关性,并使用困惑度(perplexity)来进一步评估语言模型的质量。

我们的模型的困惑度评分是基于在PubMed上的论文(500,000篇题材,50,000篇摘要,50,000个结论和未来工作)中学习的语言模型评出的,这些论文在我们的实验中没有用于训练或测试。结果如表3所示。我们的框架优于以前的所有方法。

AI能写论文了!华人本科生发明AI论文生成器

表3 对诊断任务论文写作的自动评估结果

图灵测试

由生物医学专家(非母语人士)和非专家(母语人士)对模型进行图灵测试。测试中要求每个人类对系统输出的字符串和人类创作的字符串,并选出质量更高的字符串。

AI能写论文了!华人本科生发明AI论文生成器

表4 对模型的图灵测试结果(%)。百分比表示人类裁判选择我们的模型输出结果的频率。如果输出字符串(如摘要)基于相同的输入字符串(如标题),输入条件标记为“相同”,否则标记为“不同”。

可以看到,在专家的选择中,PaperRobot生成的摘要入选率比人类撰写的摘要入选率最多高出30%,“结论和未来工作”部分最多高24%,新标题最多高出12%。领域内专家的表现并未明显优于非专家,因为这两类人倾向于关注不同方面:专家侧重于内容(实体,主题等),而非专家侧重于语言。

人类后期编辑

为了测量PaperRobot作为写作助手的有效性,我们在第一次迭代中随机选择了系统生成的50篇论文摘要,并要求领域内的专家对其进行编辑,直到专家认为编辑后摘要具有足够的信息性和连贯性。 然后由BLEU,ROUGE和TER通过比较人类编辑前后的摘要质量给出评分,如表5所示。专家花了大约40分钟。完成了50篇摘要的编辑。

AI能写论文了!华人本科生发明AI论文生成器

一些后期编辑后的示例。可以看到大多数编辑内容都是形式上的变化。

华人本科生一作,发明小达人

AI能写论文了!华人本科生发明AI论文生成器

论文一作Qingyun Wang (王清昀)是伦斯勒理工学院的大四本科生,主修计算机科学与数学双学位。今年8月开始他将在伊利诺伊大学厄巴纳香槟分校读博,主修计算机科学。

王清昀对自然语言处理很感兴趣,专研自然语言生成、信息提取和对话系统,本科期间已发表多篇相关论文。

AI能写论文了!华人本科生发明AI论文生成器

令人意外的是,王清昀简历中还列举了2项专利,分别是“遥控方便桌”和“家用废油制皂装置”,都是中学时期取得的,其中《遥控方便桌》获得第27届浙江省创新大赛一等奖。


AI能写论文了!华人本科生发明AI论文生成器

中学时期的王清昀同学

看来,王同学从小就是发明达人啊。AI写论文机不用说也是一大造福人类的好发明,期待王同学继续改进。

参考链接:

https://arxiv.org/pdf/1905.07870.pdf

http://www.hz2hs.net.cn/news/allinfo/1251.html



推荐阅读
  • 解决VS写C#项目导入MySQL数据源报错“You have a usable connection already”问题的正确方法
    本文介绍了在VS写C#项目导入MySQL数据源时出现报错“You have a usable connection already”的问题,并给出了正确的解决方法。详细描述了问题的出现情况和报错信息,并提供了解决该问题的步骤和注意事项。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
  • 本文详细介绍了MySQL表分区的创建、增加和删除方法,包括查看分区数据量和全库数据量的方法。欢迎大家阅读并给予点评。 ... [详细]
  • CentOS 7部署KVM虚拟化环境之一架构介绍
    本文介绍了CentOS 7部署KVM虚拟化环境的架构,详细解释了虚拟化技术的概念和原理,包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]
  • MongoDB用户验证auth的权限设置及角色说明
    本文介绍了MongoDB用户验证auth的权限设置,包括readAnyDatabase、readWriteAnyDatabase、userAdminAnyDatabase、dbAdminAnyDatabase、cluster相关的权限以及root权限等角色的说明和使用方法。 ... [详细]
  • NotSupportedException无法将类型“System.DateTime”强制转换为类型“System.Object”
    本文介绍了在使用LINQ to Entities时出现的NotSupportedException异常,该异常是由于无法将类型“System.DateTime”强制转换为类型“System.Object”所导致的。同时还介绍了相关的错误信息和解决方法。 ... [详细]
  • 从零基础到精通的前台学习路线
    随着互联网的发展,前台开发工程师成为市场上非常抢手的人才。本文介绍了从零基础到精通前台开发的学习路线,包括学习HTML、CSS、JavaScript等基础知识和常用工具的使用。通过循序渐进的学习,可以掌握前台开发的基本技能,并有能力找到一份月薪8000以上的工作。 ... [详细]
  • Android日历提醒软件开源项目分享及使用教程
    本文介绍了一款名为Android日历提醒软件的开源项目,作者分享了该项目的代码和使用教程,并提供了GitHub项目地址。文章详细介绍了该软件的主界面风格、日程信息的分类查看功能,以及添加日程提醒和查看详情的界面。同时,作者还提醒了读者在使用过程中可能遇到的Android6.0权限问题,并提供了解决方法。 ... [详细]
  • 前言:拿到一个案例,去分析:它该是做分类还是做回归,哪部分该做分类,哪部分该做回归,哪部分该做优化,它们的目标值分别是什么。再挑影响因素,哪些和分类有关的影响因素,哪些和回归有关的 ... [详细]
author-avatar
mobiledu2502887593
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有