考拉阅读CEO赵梓淳：如何利用AI、语言学做出国内首个中文分级阅读系统？

在一批在线教育试水者当中&＃xff0c;赵梓淳带领的考拉阅读有点不太一样。

因为国内做分级阅读的虽然不多&＃xff0c;但是做中文的分级阅读&＃xff0c;国内目前却仅有他们一家。

考拉阅读CEO赵梓淳&＃xff1a;如何利用AI、语言学做出国内首个中文分级阅读系统&＃xff1f;

考拉阅读CEO赵梓淳

在在线教育这个领域&＃xff0c;考拉阅读算是一名新人——成立不足1年&＃xff0c;团队堪满60人&＃xff0c;刚完成3000万的Pre-A轮融资。在创始人赵梓淳眼中&＃xff0c;阅读教育是一项非常庞大的产业&＃xff0c;AI&＃43;教育的未来仍存在很多不确定性。考拉阅读也还处于摸索阶段。

为什么要做中文的分级阅读标准&＃xff1f;

事实上&＃xff0c;在国内&＃xff0c;如好未来、VIPkid等一些在线教育企业已经在做英文的分级阅读&＃xff0c;虽有其物&＃xff0c;但一直没多大水花。赵梓淳向雷锋网透露&＃xff0c;对于考拉阅读来说&＃xff0c;做英语的分级阅读标准并没有太大的技术难度&＃xff0c;但他们并不想做。

原因很简单&＃xff0c;国外已有一套很成熟的英文分级阅读标准系统&＃xff0c;不仅运行了将近40年且已覆盖了美国90%的学校&＃xff0c;如Lexile分级&＃xff08;蓝思分级&＃xff09;、GE分级等。而在国内&＃xff0c;中文阅读不仅连分级标准都未建立&＃xff0c;很多教师甚至连分级阅读都没听过&＃xff0c;尤其是在重要的K12教育领域&＃xff0c;很多书店给童书分级&＃xff0c;只能给出诸如“适合8岁以下孩子阅读的童话书”等基于感性、经验基础的文字建议。此外&＃xff0c;教师、家长对孩子的阅读水平的了解也一直处于空白状态&＃xff0c;因为获取这一数据的渠道不是没有&＃xff0c;就是非常非常有限。

在这两大刚需的驱使下&＃xff0c;再加上“全民阅读”、二胎等相关政策的颁布&＃xff0c;以及人工智能、机器学习和大数据的发展&＃xff0c;又给前者提供了更充分的条件&＃xff0c;这一切都让赵梓淳觉得&＃xff1a;做一套中文的分级阅读标准很有必要&＃xff0c;而且&＃xff0c;时机也来了。

瞄准AI&＃xff0c;建立基于ER Framework的中文分级阅读系统

丨中英文差异

考拉阅读CTO任易向雷锋网透露&＃xff0c;在欧美&＃xff0c;英文的分级阅读主要有两个维度&＃xff1a;

▪ 语义&＃xff1a;主要看词频&＃xff0c;如果一个单词出现的频次很低&＃xff0c;则系统会判定这个词相对较难。

▪ 句法&＃xff1a;主要看句子长度&＃xff0c;长句一般较难去分析和理解。而句子难度跟从句、副词、介词等的使用也密切相关。

在这两个维度上&＃xff0c;欧美国家通过统计学的方法来完成分级阅读标准的建立。任易表示&＃xff0c;考拉阅读的中文分级阅读标准&＃xff08;ER Framework &＃xff09;借鉴了国外的“词、句”的分析思想&＃xff0c;因而和其有一定的相似性。但是&＃xff0c;由于中文相较英文的「天生复杂性」&＃xff0c;决定了考拉阅读必须做得更加深入。

据赵梓淳介绍&＃xff0c;中文和英文的三大本质区别主要在于&＃xff1a;

▪ 基础单元&＃xff1a;英文的基础是26个字母&＃xff0c;中文的常用汉字达3500个&＃xff0c;这就决定了中文阅读的分析必然需要一个规模化的语料库。

▪ 分词&＃xff1a;英文不需要分词&＃xff0c;仅需空格即可判定词语的边界&＃xff0c;但汉字脱离不了分词。如「量子自旋效应」这个词&＃xff0c;有人可以将其分为「量子」、「自旋」、「效应」三个词&＃xff0c;也有人认为这就是一个词。但在英文中就无此类困扰。

▪ 句式结构&＃xff1a;在句式结构上&＃xff0c;英文要严谨得多&＃xff0c;如主从句之间会有that、which、what等来界定。中文的行文风格则较为随意&＃xff0c;嵌套结构也要混乱得多。

丨「字词句段篇」五大维度&＃43;AI技术

考拉阅读CEO赵梓淳&＃xff1a;如何利用AI、语言学做出国内首个中文分级阅读系统&＃xff1f; 鉴于这三大区别&＃xff0c;考拉阅读基于ER Framework的分级阅读标准在「词」、「句」的基础上再加入「字」、「段」、「篇」三个维度&＃xff0c;即从「字词句段篇」五大维度提取几十个特征来表达中文的难度&＃xff0c;并实现段落、主题等的分析。如在「字」其下还有常用性、构形、组合性三个特征&＃xff0c;「句」则有句法结构、语义逻辑、修辞表达和嵌套深度四个特征等等。

赵梓淳告诉雷锋网(公众号&＃xff1a;雷锋网)&＃xff0c;他们一共处理了几百万字的非平衡语料库和几亿字的平衡语料库。考拉阅读的非平衡语料库主要来自各个版本的小学教材及其教辅资料&＃xff0c;其是指垂直于某一品类的语料库&＃xff0c;如小说、历史传记各有其对应的语料库&＃xff1b;平衡语料库即指一个孩子在日常生活中需要真实接触的语料&＃xff0c;如&＃xff0c;按照一位10岁小孩需要看20%的名著小说、50%的课文和20%的漫画这种比例来配语料库。

“因为中文的的句子相较英文要复杂得多&＃xff0c;机器在理解中文的第一步就会遇到词性分析、语言模型上的困难。所以&＃xff0c;有赖于现在流行的AI技术&＃xff0c;如RNN、LSTM等深度学习技术&＃xff0c;可以弥补中文在NLP上的缺失。”任易表示&＃xff0c;“现在我们可以做到&＃xff0c;将一个句子按照句法树、依赖关联等予以拆解&＃xff0c;以分析每一个成分在句子中的比重&＃xff0c;从而实现阅读文本的难度分级。”

而区别于欧美英文分级阅读&＃xff0c;考拉阅读的分级阅读系统最大的优势即在于AI在此发挥的作用。赵梓淳向雷锋网透露&＃xff0c;随着用户数量的增加&＃xff0c;产生的数据越多&＃xff0c;该系统中的模型可实现自主学习&＃xff0c;不断优化&＃xff0c;从而对文本阅读的难度感知越发准确。

以教育局切入&＃xff0c;「从上至下」走To B路线

据雷锋网了解&＃xff0c;目前赵梓淳带领其团队共开发了三款产品&＃xff1a;

▪ 基于ER Framework的个性化分级阅读系统&＃xff1b;

▪ 基于ER Framework和“新课标”的阅读能力测评&＃xff1b;

▪ 针对公立学校的阅读整体解决方案&＃xff0c;包括教师培训、分级短文材料等。

其中&＃xff0c;考拉阅读的分级阅读系统现在已经进入天津市200余所中小学&＃xff0c;被全市上百万的小学生使用。赵梓淳称&＃xff0c;考拉阅读的用户群主要为小学阶段的孩子&＃xff0c;目标是利用AI和语言学的结合&＃xff0c;全面提升这些孩子的阅读能力。

在公司战略决策的制定上&＃xff0c;赵梓淳显得非常冷静而果断&＃xff0c;其称&＃xff0c;考拉阅读的业务从一开始就是围绕To B在展开&＃xff0c;不会针对C端使用。原因有两点&＃xff1a;

1、普通民众并不明白什么是分级阅读。对于考拉阅读这种体量的创业公司而言&＃xff0c;要转变他们对分级阅读的认知&＃xff0c;任务实在过于繁重。所以&＃xff0c;更好的方式就是在一开始就从To B端的公立学校、教育机构去切入&＃xff0c;让教育局、教师等为分级阅读背书&＃xff0c;且还能增强公司产品的公信力。

2、目前获取C端用户的成本依然很高。

基于此&＃xff0c;赵梓淳表示&＃xff0c;“所以我们还是想在B端稳扎稳打下去。后期公司发展到一定程度之后&＃xff0c;必定会走向To C端&＃xff0c;毕竟To B的天花板一定是可以预见的。”

丨牵手200余所中小学

然而&＃xff0c;在在线教育这一慢热的市场&＃xff0c;特别是在很多教育资源都被政府等相关机构紧紧攥在手里的情况下&＃xff0c;考拉阅读又是如何打通这些壁垒&＃xff0c;与教育局&＃xff0c;以及地级市200余所学校成功牵手的呢&＃xff1f;

赵梓淳告诉雷锋网&＃xff0c;事实上&＃xff0c;考拉阅读一开始走这条路也不太顺利——最先其采取对每家学校进行单点突破的方式&＃xff0c;却发现效率非常低下。

赵梓淳带领其团队观察到这样一个现象&＃xff0c;国内很多中小学都很重视学生的测评&＃xff0c;但在阅读能力的测评上却处于相对空白的状态。于是&＃xff0c;考拉阅读联合北京师范大学基础教育评测中心合作「搞」了一件大事&＃xff1a;在国内的一线到四线城市&＃xff0c;对近10万学生进行了基于ER Framework和“新课标”的阅读能力测试&＃xff0c;并对相关数据进行分析&＃xff0c;最终出具了一份中国学生的阅读能力量表。在测评的助攻下&＃xff0c;考拉阅读成功打通了和中小学合作的路径。

考拉阅读CEO赵梓淳&＃xff1a;如何利用AI、语言学做出国内首个中文分级阅读系统&＃xff1f;

丨开设教师培训课程

同时&＃xff0c;在推进分级阅读标准的过程中&＃xff0c;考拉阅读发现「教师」这一角色反而是整个推进过程的关键角色。因为虽然已经开发出中文分级阅读标准及其配套工具和产品&＃xff0c;但在赵梓淳看来&＃xff0c;这些工具和产品依然需要人来使用&＃xff0c;需要教育者来向这些孩子传递教育的温度和理念。但是&＃xff0c;国内教育理念跟不上&＃xff0c;语文教师对整个前沿教育的趋势掌握不到位......这些都是问题。

针对这一痛点&＃xff0c;考拉阅读还和学校合作开展了20课时和40课时不同版本的针对教师的培训课程&＃xff0c;由其团队里具有深厚教研经验的成员进行研发&＃xff0c;分为线下集中辅导和线上远程支持两种路径&＃xff0c;以培训教师们及时更新各种新兴教育理念的能力&＃xff0c;从而及时掌握教育阅读的最新发展趋势。

结语

分级阅读进入国内的这些年&＃xff0c;不是没有遭受过质疑之声&＃xff0c;有人认为分级阅读不适应中国国情&＃xff0c;比如有些孩子从小耳濡目染四大名著&＃xff0c;可能会对超出分级阅读系统推荐的书目以外的书籍感兴趣&＃xff0c;当然不能排除这种可能性。

面对这一问题&＃xff0c;赵梓淳如此表示&＃xff1a;

“分级阅读系统只是一种工具&＃xff0c;它并不能喧宾夺主说可以取代老师。我们做分级阅读的意义就在于&＃xff0c;想告诉家长和老师&＃xff0c;哪种文本难度的书目是适合你的孩子或学生去阅读的。至于读还是不读&＃xff0c;依然需要家长和老师去做出判断。”

最后&＃xff0c;谈及在推进分级阅读教育过程的体会时&＃xff0c;赵梓淳坦言道&＃xff0c;“教育是一件很大很大的事情&＃xff0c;因为它与人性直接相关&＃xff0c;不是仅仅做好产品就能实现「通吃」的。大家一直都在说「教育科技」&＃xff0c;而非「科技教育」&＃xff0c;因为教育一定是摆在第一位的。”

本文作者&＃xff1a;李秀琴

本文转自雷锋网禁止二次转载&＃xff0c;原文链接