爱奇艺HomeAI服务于iQIYI内的多个平台和产品,提供以视频点播为中心的智能语音交互解决方案,同时也在不断通过创新,利用最新的语音相关技术打造全新的玩法。
对于目前大部分的语音交互系统,语音识别,语义理解和操作执行都是独立的模块,因此语音识别的错误后续的模块无法感知也无法反馈,将会在传递的过程中不断放大,最终导致错误的结果。随着智能语音助手所支持的领域越来越多,语言模型的缺陷所导致的语音识别结果误差正在逐步成为整个系统的瓶颈。本文将介绍HomeAI目前的初步成果和未来的思考。
语言模型的局限性
统计语言模型是通过对大量文本语料学习得到的描述词序列的出现概率的模型,被广泛应用在语音识别,自然语言处理等领域,它相比传统的基于规则的语言模型具有更好的鲁棒性。
正因如此,语音识别和意图识别的语言模型无法快速的扩展,因此这两个模块对社会热点或者新播热剧很难有效的响应。
相对的,执行层面在进行视频搜索时的基于片库的语言模型在日新月异的变化。两种模型的差异导致语音识别过程中无法更倾向于解析出和片库内容相符的实体。
一个典型的错误
先让我们通过一个简单的例子来看一下,语音识别的错误是如何影响最终的结果的。
由于用户输入的“声临其境”没有在语音识别的语言模型中,但是却存在与其发音非常接近的成语存在(这种命名方式当前非常普遍),导致语音识别输出了高置信度的错误结果,得到了不符合用户预期的结果(路径1)。
通常,我们会尝试通过执行端的纠错,在这个例子中为搜索时的模糊匹配(路径2)来修复此类问题。但是由于模糊匹配的结果置信度较低,因此当整个系统支持多个领域的技能时,将有可能被其他领域的结果PK掉(路径3)。
而由于之前提到的语言模型的缺陷,即使让ASR提供排名前N的识别结果,也无法包含正确的结果。在HomeAI中,我们尝试在意图识别层面,利用自己的语言模型对ASR的结果进行纠错(路径4),从而更好的解决类似的问题。
既然ASR中的语言模型一定程度上导致了对于实体的识别错误,那首先我们要做的就是要淡化语义在ASR中所起的作用,将发音信息和语义信息分层解耦。
在传统的语音识别模型最后,我们把解码部分分成了两层,先解码到拼音(即发音信息),再解码到文字,这样输出中可以同时保留两层结果供后续模块使用。对于外部的语言识别服务的结果,我们也会基于其输出的拼音信息进行实体的检索,以减少ASR的错误结果对后续意图识别的影响。
HomeAI采用了主流的领域->意图->填槽的方式进行自然语言处理。由于之前在语音识别中弱化了发音到文字的转换,因此需要在意图识别时进行增强。HomeAI在意图识别过程中分两步对实体信息进行纠错:
1.结合ASR的语义层和声学层输出,以及意图识别的语言模型,尝试对原输出中的实体进行纠错
2.在词向量中拼接拼音特征,增强模型对相似发音的泛化能力
由于语言模型在语音交互的各个模块中无法同步,且模块之间无反向反馈。导致语音识别的错误在模块自身不感知的情况下被后续处理模块初步放大,并最终产生了不符合用户预期的结果。为此,HomeAI通过将语音识别过程中,语义理解部分,即拼音到文本的转化弱化,交由后续的意图识别模块进一步增强,结合片库中的实体信息,在视频点播场景对用户体验有明显的提升。
从语音交互向智能助手的发展还有很长的道要走,HomeAI也会继续在这个领域不断投入。除了扩展视频点播以外更多的使用场景,可针对用户和环境自适应的交互模型也会是我们的研究重点。许多言语只有与特定人和特定上下文环境结合才能正确的理解,这些是单一的云端模型所无法解决的。我们希望能够以一个通用的模型为基础,结合用户端的自适应能力,使系统在交互过程中能够通过反馈,逐渐适应用户的口音,习惯,常用词汇,相关实体等等,打造私人定制的语音助手。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 我们