当前位置: 开发笔记 > 编程语言 > 正文

GRE作文用AI打分，已经20周年了：AI给中国考生的分数，远高于人类打分

作者：郭伟健逍遥_308 | 来源：互联网 | 2023-07-12 02:07

栗子发自凹非寺量子位报道|公众号QbitAIGRE作文用了AI打分。这原本不能算个新闻。但由于美媒VICE发布的一项调查，这件事又成了热烈讨论的焦点。VICE调查了美

栗子发自凹非寺
量子位报道 | 公众号 QbitAI

GRE作文用了AI打分。

这原本不能算个新闻。

但由于美媒VICE发布的一项调查&＃xff0c;这件事又成了热烈讨论的焦点。

VICE调查了美国的50个州&＃xff0c;发现有至少21个州 (包括加州) 的教育系统&＃xff0c;已经把AI当成作文打分的主要/第二主要工具&＃xff0c;用在标准化考试里。

640?wx_fmt&＃61;jpeg

△ 蓝&＃61;AI打分&＃xff0c;浅蓝&＃61;有试点&＃xff0c;红&＃61;无AI打分&＃xff0c;桃红&＃61;看学区&＃xff0c;灰&＃61;未回应

这21个州里&＃xff0c;只有3个州表示&＃xff0c;人类也会参与作文打分&＃xff1b;余下18个州&＃xff0c;只会随机抽出5%-20%的作文&＃xff0c;交给人类复核一下AI给的成绩。

问题是&＃xff0c;标准化考试常常作为选拔依据&＃xff0c;左右人类前途。AI打分的话&＃xff0c;命运就在AI手里了。

这时&＃xff0c;人们不免想起了GRE&＃xff0c;这个20年前就开始用AI判作文的大前辈。

640?wx_fmt&＃61;jpeg

有有不少研究表明&＃xff0c;包括GRE打分机器e-rater在内&＃xff0c;许多AI评判文章的机制&＃xff0c;都有明显的缺陷。

不过经年累月&＃xff0c;AI不但没有被各种作文考试抛弃&＃xff0c;反而越发受欢迎了。

于是&＃xff0c;Hacker News网友开启了激烈的讨论&＃xff0c;不到一日热度便有了330&＃43;。

GRE&＃xff1a;机器比人更偏爱中国考生

早在1999年&＃xff0c;主办GRE的美国教育考试服务中心 (ETS) &＃xff0c;就开始用e-rater给作文打分了。

跟据官方信息&＃xff0c;这个自然语言处理 (NLP) 模型&＃xff0c;评分标准有以下8条&＃xff1a;

· 基于词汇考量的内容分析 (Content Analysis Based on Vocabulary Measures)
· 词汇复杂度/措辞 (Lexical Comlexity/Diction)
· 语法错误比例 (Proportion of Grammar Errors)
· 用法错误比例 (Proportion of Usage Errors)
· 机械错误比例 (Proportion of Mechanics Errors)
指拼写错、大小写错、标点错等等技术问题。
· 风格评论比例 (Proportion of Style Comments)
比如&＃xff0c;某个短语出现过多&＃xff0c;太短的句子过多&＃xff0c;太长的句子过多等等。
· 文章组织和发展分 (Organization and Development Scores)
· 地道用语 (Features Rewarding Idiomatic Phraseology)

当然&＃xff0c;这只AI不止服务GRE。至少&＃xff0c;托福和GRE一样&＃xff0c;也是ETS出品的考试。

至于这套算法的缺陷都出在哪&＃xff0c;ETS官方就做过不少研究&＃xff0c;且从不避讳研究结果。

在1999、2004、2007、2008、2012和2018年的作文里&＃xff0c;都能发现AI给中国大陆考生的分数&＃xff0c;普遍比人类打分要高。

相反&＃xff0c;在非裔美国人身上&＃xff0c;AI常常比人类给分要低。在母语是阿拉伯语、西班牙语和印地语的考生那里&＃xff0c;也有相似的情况。即便团队一直改进算法&＃xff0c;也没有消除这个问题。

ETS的一位高级研究员说&＃xff1a;

如果我们想让算法对某个国家的某个群体友好一些&＃xff0c;那就很可能会伤害到其他群体了。

再进一步&＃xff0c;分单项来观察AI的打分情况。

会发现在全部考生里面&＃xff0c;e-rater给中国大陆考生的语法 (Grammar) 和写作技巧 (Mechanics) 分&＃xff0c;整体偏低&＃xff1b;

而在文章长度和复杂单词的选用上&＃xff0c;中国大陆考生的AI打分超过平均。最终&＃xff0c;AI给大陆考生的总分&＃xff0c;整体比人类打分更高。GRE作文满分6分&＃xff0c;AI比人类打分平均高出1.3分。

相比之下&＃xff0c;在非裔美国人身上&＃xff0c;AI比人类打分平均要低0.81分。以及&＃xff0c;这只是平均数据&＃xff0c;在许多考生那里&＃xff0c;差异来得比这更剧烈。

640?wx_fmt&＃61;jpeg

不论是1.3还是0.81&＃xff0c;在6分制的考试里都不是小数字&＃xff0c;可能严重影响考生的成绩。

不止如此&＃xff0c;MIT的小伙伴们开发过一个叫BABEL的算法&＃xff0c;把复杂的词句拼贴在一起&＃xff0c;得出的文章没有任何实在的意义&＃xff0c;却被GRE的线上评分工具ScoreItNow!打出了4分的好成绩。

640?wx_fmt&＃61;jpeg

但ETS说&＃xff0c;AI不是单独判卷&＃xff0c;每篇AI打分的作文&＃xff0c;都有一个人类同时打分。然后&＃xff0c;把人机打分之间的差异&＃xff0c;交给第二个人类去判断&＃xff0c;得出最终的分数。

所以&＃xff0c;ETS认为考生并不会受到AI缺陷的不利影响。

不过对比一下&＃xff0c;传统方法是两个人类同时给一篇文章打分&＃xff1b;而当AI替代其中一人打分&＃xff0c;相当于这个人的职责变成了复核。

成本大概下降了不少&＃xff0c;对结果的影响有多大就很难说&＃xff0c;至少打分机制和AI参与之前有差别了。

另外&＃xff0c;AI的存在不止影响评分&＃xff0c;也直接影响考生的应试策略。这些年&＃xff0c;讨好AI的攻略越来越多&＃xff1a;

640?wx_fmt&＃61;jpeg

△来自ChaseDream论坛&＃64;竹林中人

还好&＃xff0c;GRE有人类和AI一起打分。

可还有许多考试是直接交给AI判作文的&＃xff1a;

不止GRE算法有问题

比如&＃xff0c;VICE调查发现&＃xff0c;犹他州把AI作为主要 (Primary) 作文评分工具&＃xff0c;已经有些年头了。

州内的一位官员解释了原因&＃xff1a;

手动打分除了耗费时间之外&＃xff0c;也是本州一项重大开支。

所以&＃xff0c;用AI来为写作评分&＃xff0c;在降低成本的同时&＃xff0c;能不能做到公平公正&＃xff1f;

美国研究协会 (American Institutes of Research&＃xff0c;AIR) 是一间非盈利机构&＃xff0c;也是犹他州最主要的考试提供方。

关于交给AI打分的是怎样的题目&＃xff0c;AIR给出了一个范本&＃xff1a;

640?wx_fmt&＃61;png

这道题目是&＃xff0c;看到一张海牛图像&＃xff0c;考生要写出一个观察 (A) &＃xff0c;和一个推理 (B) 。

而AIR每年都会做出一份报告&＃xff0c;评估一些新题目的公平性。

评估的一个重点就是&＃xff1a;女生和少数族裔学生&＃xff0c;在特定考题上&＃xff0c;是不是比男性/白人的表现要差。这个指标叫做“差异试题功能 (DIF) ”。

报告显示&＃xff0c;2017-2018学年、三至八年级的写作考题里&＃xff0c;有348道题被判定为&＃xff0c;对女生和少数族裔学生有轻微DIF&＃xff1b;相比之下&＃xff0c;对男生和白人学生有轻微DIF的题目有40道。

另外&＃xff0c;还有3道题被判定为&＃xff1a;对女生和少数族裔学生有严重DIF。这些题目会交由专门的委员会审核。

可能造成DIF的原因有多种&＃xff0c;而算法偏见是大家最关心的因素。

一位来自犹他州的家长 (&＃64;dahart) &＃xff0c;占据了Hacker News讨论版的顶楼。

他很不喜欢听那些官员讲“成本”。他觉得&＃xff0c;教育本来就是费时费力的&＃xff0c;不可能又快又便宜。

他说&＃xff0c;孩子的作文是机器打分&＃xff0c;全家不满意AI给的分数&＃xff0c;爱人和孩子都会哭。

640?wx_fmt&＃61;png

One More Thing

当然&＃xff0c;AI判作文也不止美国才有。

去年&＃xff0c;《南华早报》说国内已经有6万所学校靠AI批改作业&＃xff0c;分布在全国各地。

其中&＃xff0c;学生提交的英文作业&＃xff0c;也是机器打分。作文批改系统来自酷句批改网&＃xff0c;要理解文字的一般逻辑和意思&＃xff0c;对作文的整体质量做出像人一样合理的评判&＃xff0c;还要在写作风格、结构、主题等方面给出建议。

据说&＃xff0c;AI和人类教师对一篇作文的评分&＃xff0c;在92%的情况下是一致的。

但从评论来看&＃xff0c;同学们也像美国的小伙伴一样&＃xff0c;受了不少委屈&＃xff1a;

640?wx_fmt&＃61;jpeg

&＃xfeff; 640?wx_fmt&＃61;jpeg

这样的情感&＃xff0c;还是不分国界的。

参考资料&＃xff1a;

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS发的许多NLP论文&＃xff1a;

https://www.ets.org/research/topics/as_nlp/writing_quality/

— 完 —

大会启幕&＃xff01;预见智能科技新未来

量子位MEET 2020智能未来大会启幕&＃xff0c;将携手优秀AI企业、杰出科研人员呈现一场高质量行业盛会&＃xff01;详情可点击图片&＃xff1a;

榜单征集&＃xff01;三大奖项&＃xff0c;锁定AI Top玩家

2019中国人工智能年度评选启幕&＃xff0c;将评选领航企业、商业突破人物、最具创新力产品3大奖项&＃xff0c;并于MEET 2020大会揭榜&＃xff0c;欢迎优秀的AI公司扫码报名&＃xff01;

量子位 QbitAI · 头条号签约作者

վ&＃39;ᴗ&＃39; ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

推荐阅读

md5
基于PgpoolII的PostgreSQL集群安装与配置教程

本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件，提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能，可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤，并提供了相关的官方参考地址。 ... [详细]

蜡笔小新 2023-12-14 19:10:25
md5
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
go
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
char
自动轮播，反转播放的ViewPagerAdapter的使用方法和效果展示

本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter，并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]

蜡笔小新 2023-12-13 14:41:31
client
解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法

本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法，包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时，还介绍了修改nginx的error.log日志级别为debug，以便查看详细日志信息。 ... [详细]

蜡笔小新 2023-12-12 13:19:04
client
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
go
Java 11相对于Java 8，OptaPlanner性能提升有多大？

本文通过基准测试比较了Java 11和Java 8对OptaPlanner的性能提升。测试结果表明，在相同的硬件环境下，Java 11相对于Java 8在垃圾回收方面表现更好，从而提升了OptaPlanner的性能。 ... [详细]

蜡笔小新 2023-12-11 10:59:22
main
使用Rust语言编写、保存和编译程序的简单步骤

本文介绍了使用Rust语言编写、保存和编译程序的简单步骤。首先，打开记事本文件并编写程序代码，然后将代码保存到一个以.rs为扩展名的文件中。接下来，使用rustc命令来编译运行程序。最后，通过命令行运行编译后的程序，得到输出结果。如果遇到编译错误，可以下载Build Tools for Visual Studio 2017来解决。 ... [详细]

蜡笔小新 2023-12-09 03:49:28
main
[转载]从零开始学习OpenGL ES之四 – 光效

继续我们的iPhoneOpenGLES之旅，我们将讨论光效。目前，我们没有加入任何光效。幸运的是，OpenGL在没有设置光效的情况下仍然可 ... [详细]

蜡笔小新 2023-10-17 17:38:05
shell
【技术分享】一个 ELF 蠕虫分析

【技术分享】一个 ELF 蠕虫分析 ... [详细]

蜡笔小新 2023-10-17 16:12:28
shell
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
go
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
hash
痞子衡嵌入式：对比MbedTLS算法库纯软件实现与i.MXRT上DCP,CAAM硬件加速器实现性能差异...

大家好，我是痞子衡，是正经搞技术的痞子。今天痞子衡给大家介绍的是MbedTLS算法库纯软件实现与i.MXRT上DCP,CAAM硬件加速器实现性能差异。近 ... [详细]

蜡笔小新 2023-10-15 18:21:24
数组
样式迁移(风格迁移)

原文来源：https:arxiv.org、https:github.com作者：FujunLuan、SylvainParis、EliShechtman、KavitaB ... [详细]

蜡笔小新 2023-10-13 12:12:36
php
PDO MySQL

PDOMySQL如果文章有成千上万篇，该怎样保存？数据保存有多种方式，比如单机文件、单机数据库（SQLite）、网络数据库（MySQL、MariaDB）等等。根据项目来选择，做We ... [详细]

蜡笔小新 2023-12-12 10:25:39