图源:视觉中国
教育行业的产业升级
近几年来,随着国家政策对人工智能及人工智能+教育领域的关注和推动,包括《新一代人工智能发展规划》与《教育信息化2.0行动计划》等政策的出台,大力提升了人工智能+教育领域的发展,据艾瑞咨询的报告显示, AI+教育行业的市场规模超过400亿。资本方面,AI+教育也已成为教育领域近年来最大投资热点。
在此背景下,AI已全面应用到在线教育各领域,包括学习过程中的“教、学、评、测、练”五大环节,对于AI+教育的研究思维也从过去的教学环境智能化向教学过程智能化转变, AI技术的发展也在重构教育行业生态圈参与者之间的关系。
在教育方面的应用中,人工智能技术的水平,从简单的学习内容推送,到难度递增的测评体系,以及优化学习路径,形成知识图谱等,后者也是当前智适应教育的最高水平。智适应学习是借助人工智能自适应技术的学习系统,是基于教育大数据的可规模化的个性化学习。智适应教学系统与人工智能设计和认知学习理论有着密切的关系,它的可应用领域未来会越来越广,甚至可以生成教学策略,基于增强学习和遗传算法,全方位提升学生的学习能力和创造力。
图一 图片来源于艾瑞咨询《中国AI+教育行业发展研究报告》
多种AI技术下的在线教育
得益于互联网和AI技术的发展,中国的在线教育在近十年得以快速的成长,甚至在2020年,崛起的更为迅速,其中K12辅导和英语辅导方面的需求最为火爆。
在线教育的核心目标是为用户提供知识相关服务,但存在的问题是AI产品的工具化属性较重,用户体验粗糙且教学效果模糊,用户对新技术的接受周期较长,且越来越多的玩家入场,竞争愈发激烈。无论是在线教育产品的使用者和企业自身都在不断探索和尝试更加智能化的产品。
好的用户体验是在线教育平台持续发展的重要部分,一方面需要保证基础专业功能的稳定性和准确性,并且对于不同场景有着较强的适应能力;另一方面也希望能够针对不同用户,增加更加精细的个性化的智能体验。
认知智能将助力精细化教学,而AI技术将成为在线教育智能升级演化过程的重要推力。比如针对外语学习场景,需要用到自然语言处理相关的技术;拍照搜题场景下,用到的主要是计算机视觉图像处理相关技术;教师辅助场景则需要将图像处理,语音识别,自然语言理解,智能推荐等技术进行结合。
基于现有算法,精准化的数据是教育公司提高竞争力的突破口
由于国人对英语学习的重视,当前国内的AI+在线教育市场,各大公司几乎都在涉足的领域是外语学习发音评测场景,这也是十分重要的一个场景。
针对该场景,同样会有很多细分的领域:比如儿童英语学习的测评,成年人发音评测。或者是针对雅思、托福等场景和日常口语对话等场景,从词库,表达方式到评估方式都有着较大差异。
以智能教育中的发音评测为例,它的核心算法来自于智能语音识别技术。智能发音评测的关键是构建性能优良的评测模型并用于自动判定。该模型需要使用口语习得过程中得到的音频数据,以及它所对应的多维度评价指标标记数据,这些参数包括但不限于专家对发音的多层级(句子、词、字、音素等)打分。模型训练通常使用深度学习框架,训练的目标是希望模型生成的评分,尽可能的接近人工专家给出的评分。基于训练得到的评测模型,常规的判定方法是将语音和文本进行强制对齐,获取每个层级的时间点信息,然后使用评测模型计算对应时间内各层级单元的声学概率,再通过一些变换方法将这一概率转化成最终的得分。
人工智能教育企业在核心算法技术上的差距并不明显。智能发音评测基于目前涉及的维度,基础测评功能的实现技术门槛不高。然而,如果希望评测系统能够精准的、全方位的,评价各个发音人的发音情况,拆分到多维度评价体系上(如流利度、重音情况、发音标准度、停顿情况等等),得到一个足够优秀的评测结果,这样的评测系统则需要海量精准化、多维度的标记数据,用于模型的训练。没有足够多的数据,或者没有多维度的数据,都会直接降低评测模型的判定效果。数据的短缺是绝大多数教育公司面临的最大问题,多维度的高质量数据才是教育公司提高竞争的突破口。专业规范的数据不仅能够节约系统开发的时间成本,而且是最为直接有效的拉高系统性能上限的方式。
如何获取高质量的数据
数据获取的方式有很多,开源使用一些知名的开源数据平台的免费数据,如openSLR等,也可以利用产品累积的线上数据,标注之后训练模型。但是由于线上数据质量参差不齐,数据挑选和标注的资金、人力和时间成本较高。并且高质量的标注数据对于标注流程系统的设计,标注员的资源和培训体系的专业性以及数据验证方式都有着较高的要求,组建和运营一个专业的数据团队并不容易。
一个更好的解决方式是寻求专业数据服务公司的帮助,他们能够针对不同细分场景,提供更加规范且高质量的数据输出。专业数据服务公司,会针对不同语种和场景,提供标准化的数据集,方便教育企业迅速的启动模型训练,很大程度上节约开发人员的时间成本。同时,在模型优化和演进过程中,专业数据服务公司可以为教育企业,提供针对原始音频(Raw Data)的标准化标记服务,帮助推进教育企业的智能化进程。
图二 openSLR上的开源数据
目前发音评测相关的数据集并不多,市场上的数据可能存在的问题是距离真实的教育场景较远,缺乏前端交互和教育内容涉及等重要环节,贴合场景的数据少。
某头部教育机构AI领域负责人表示:“在线教育产品数量近两年来增长迅速,行业竞争十分激烈,用户体验和技术升级的需求大量增加,人工智能解决方案将成为在线教育体验提升的重要途径之一。在线教育的发展离不开AI技术,高质量的数据则是AI技术发展的基础。以爱数智慧为代表的人工智能数据服务公司正潜移默化的为在线教育行业赋能,推动在线教育行业升级改革。其设计的数据集非常有前瞻性,例如近期推出的儿童语料库资源和中国人说英语数据集资源等在行业内都比较紧缺。”
开源数据免费获取——英语发音评测数据集
点击阅读原文填写表单,
即刻获取数据集下载地址
近期,北京爱数智慧科技有限公司发布了智能教育行业具有代表性的英语发音语音评测数据集。包含14+小时中国人说英语的数据,说话人性别比例接近1:1。数据集在近场环境录制,不存在明显混响、噪音情况。该数据集邀请了外教从流利度、停顿、发音正确率、语调、重音等六个维度进行综合性打分。
该数据集有五个优势,分别是:匹配在线教育应用场景、年龄段选择、多维度、客观性、科学性。
匹配在线教育应用场景:经模型验证,该中式英语数据集准确率高,可用于识别语法错误、拼写错误,对用词提供修改建议。
年龄段选择:符合市场上对英语学习需求量比较大,投入比较多的年龄段。
多维度:6个维度打分:流利度,停顿,发音,语调,重音,综合。
客观性:Native Speaker打分,客观可信。
科学性:细颗粒度打分,精准定位发音问题。
为了更好地推进在线教育事业的发展以及更好地服务AI研究,目前该数据集已经开源,点击阅读原文填表单即刻获取下载地址。
Kaldi之父Daniel Povey加盟,爱数智慧的“硬核”背景
北京爱数智慧科技有限公司是一家领先的一站式AI数据服务商。致力于提供准确、专业、定制化的数据服务,“为智能世界提供充足的数据生产力”,而且在数据开源贡献方面也起到带头作用。为了能够更好的结合语音处理相关算法来进行数据定制,公司有幸邀请到语音识别开源工具Kaldi之父——Daniel Povey出任公司的首席科学家顾问。
爱数智慧提供的数据已经服务于国内顶尖科研院校,头部互联网公司,AI教育领域的代表性公司等。爱数智慧基于行业经验和成品数据集具有前瞻性、质量好、场景多、多样性等特点,除此之外,也拥有复杂的数据集定制能力,客户可根据需求进行定制。人机协作的体系化流程,可以确保评分一致性,保证评分标准统一。
优势:
标准化流程:一站式数据服务解决方案
先进的技术:人机协作的数据制作系统+高效的分布式大数据处理平台
专业的资源:海内外的数十万专业的采集人、标注人的渠道资源
丰富数据库:10万+小时多语种多领域多场景的成品数据集
点击????????阅读原文,获取数据集下载地址。