热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

爱奇艺HomeAI在语音交互领域的探索

爱奇艺HomeAI服务于iQIYI内的多个平台和产品,提供以视频点播为中心的智能语音交互解决方案,同时也在不断通过创新,利用最新的语音相关技术打造全新的玩法。对于目前大部分的语音交互系统,语音识别,语义理解和操作执行都是独立的模块,因此语音识别的错误后续的模块无法感知也无法反馈,将会在传递的过程中不断放大,最终导致错误的结果。随着智能语音助手所支持的领域越来越多,语言模型的缺陷所导致的语音识别结果

前言

爱奇艺HomeAI服务于iQIYI内的多个平台和产品,提供以视频点播为中心的智能语音交互解决方案,同时也在不断通过创新,利用最新的语音相关技术打造全新的玩法。

对于目前大部分的语音交互系统,语音识别,语义理解和操作执行都是独立的模块,因此语音识别的错误后续的模块无法感知也无法反馈,将会在传递的过程中不断放大,最终导致错误的结果。随着智能语音助手所支持的领域越来越多,语言模型的缺陷所导致的语音识别结果误差正在逐步成为整个系统的瓶颈。本文将介绍HomeAI目前的初步成果和未来的思考。

语言模型的局限性

统计语言模型是通过对大量文本语料学习得到的描述词序列的出现概率的模型,被广泛应用在语音识别,自然语言处理等领域,它相比传统的基于规则的语言模型具有更好的鲁棒性。

正因如此,语音识别和意图识别的语言模型无法快速的扩展,因此这两个模块对社会热点或者新播热剧很难有效的响应。

相对的,执行层面在进行视频搜索时的基于片库的语言模型在日新月异的变化。两种模型的差异导致语音识别过程中无法更倾向于解析出和片库内容相符的实体。

爱奇艺HomeAI在语音交互领域的探索

一个典型的错误

先让我们通过一个简单的例子来看一下,语音识别的错误是如何影响最终的结果的。

爱奇艺HomeAI在语音交互领域的探索

由于用户输入的“声临其境”没有在语音识别的语言模型中,但是却存在与其发音非常接近的成语存在(这种命名方式当前非常普遍),导致语音识别输出了高置信度的错误结果,得到了不符合用户预期的结果(路径1)。

通常,我们会尝试通过执行端的纠错,在这个例子中为搜索时的模糊匹配(路径2)来修复此类问题。但是由于模糊匹配的结果置信度较低,因此当整个系统支持多个领域的技能时,将有可能被其他领域的结果PK掉(路径3)。

而由于之前提到的语言模型的缺陷,即使让ASR提供排名前N的识别结果,也无法包含正确的结果。在HomeAI中,我们尝试在意图识别层面,利用自己的语言模型对ASR的结果进行纠错(路径4),从而更好的解决类似的问题。

分离语言模型

既然ASR中的语言模型一定程度上导致了对于实体的识别错误,那首先我们要做的就是要淡化语义在ASR中所起的作用,将发音信息和语义信息分层解耦。

爱奇艺HomeAI在语音交互领域的探索

在传统的语音识别模型最后,我们把解码部分分成了两层,先解码到拼音(即发音信息),再解码到文字,这样输出中可以同时保留两层结果供后续模块使用。对于外部的语言识别服务的结果,我们也会基于其输出的拼音信息进行实体的检索,以减少ASR的错误结果对后续意图识别的影响。

意图识别进行实体增强

HomeAI采用了主流的领域->意图->填槽的方式进行自然语言处理。由于之前在语音识别中弱化了发音到文字的转换,因此需要在意图识别时进行增强。HomeAI在意图识别过程中分两步对实体信息进行纠错:

1.结合ASR的语义层和声学层输出,以及意图识别的语言模型,尝试对原输出中的实体进行纠错

2.在词向量中拼接拼音特征,增强模型对相似发音的泛化能力

爱奇艺HomeAI在语音交互领域的探索

总结

由于语言模型在语音交互的各个模块中无法同步,且模块之间无反向反馈。导致语音识别的错误在模块自身不感知的情况下被后续处理模块初步放大,并最终产生了不符合用户预期的结果。为此,HomeAI通过将语音识别过程中,语义理解部分,即拼音到文本的转化弱化,交由后续的意图识别模块进一步增强,结合片库中的实体信息,在视频点播场景对用户体验有明显的提升。

未来发展

从语音交互向智能助手的发展还有很长的道要走,HomeAI也会继续在这个领域不断投入。除了扩展视频点播以外更多的使用场景,可针对用户和环境自适应的交互模型也会是我们的研究重点。许多言语只有与特定人和特定上下文环境结合才能正确的理解,这些是单一的云端模型所无法解决的。我们希望能够以一个通用的模型为基础,结合用户端的自适应能力,使系统在交互过程中能够通过反馈,逐渐适应用户的口音,习惯,常用词汇,相关实体等等,打造私人定制的语音助手。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 我们


推荐阅读
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 本文详细介绍了MicroATX(也称Mini ATX)和MATX主板规格,探讨了它们的结构特点、应用场景及对电脑系统成本和性能的影响。同时,文章还涵盖了相关操作系统的实用技巧,如蓝牙设备图标删除、磁盘管理等。 ... [详细]
  • Codeforces Round #566 (Div. 2) A~F个人题解
    Dashboard-CodeforcesRound#566(Div.2)-CodeforcesA.FillingShapes题意:给你一个的表格,你 ... [详细]
  • 本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询,并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率,还简化了代码逻辑。 ... [详细]
  • 随着网络安全威胁的不断演变,电子邮件系统成为攻击者频繁利用的目标。本文详细探讨了电子邮件系统中的常见漏洞及其潜在风险,并提供了专业的防护建议。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 视觉图像的生成机制与英文术语解析
    近期,Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机(MLP)在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制,并解析了相关技术术语,为理解视觉图像生成提供了新的视角和方法。 ... [详细]
  • AI TIME联合2021世界人工智能大会,共探图神经网络与认知智能前沿话题
    AI TIME携手2021世界人工智能大会,共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来,WAIC已成为全球AI领域的年度盛会,吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]
  • 本文详细介绍了如何解决Uploadify插件在Internet Explorer(IE)9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码,确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文详细介绍了HTML中标签的使用方法和作用。通过具体示例,解释了如何利用标签为网页中的缩写和简称提供完整解释,并探讨了其在提高可读性和搜索引擎优化方面的优势。 ... [详细]
  • 本文将深入浅出地介绍自然语言处理的基本概念、发展历程及未来趋势,并提供丰富的学习资料。 ... [详细]
author-avatar
荆灬樊小姐_526
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有