爱奇艺HomeAI在语音交互领域的探索

作者：荆灬樊小姐_526 | 来源：互联网 | 2023-07-11 13:00

爱奇艺HomeAI服务于iQIYI内的多个平台和产品，提供以视频点播为中心的智能语音交互解决方案，同时也在不断通过创新，利用最新的语音相关技术打造全新的玩法。对于目前大部分的语音交互系统，语音识别，语义理解和操作执行都是独立的模块，因此语音识别的错误后续的模块无法感知也无法反馈，将会在传递的过程中不断放大，最终导致错误的结果。随着智能语音助手所支持的领域越来越多，语言模型的缺陷所导致的语音识别结果

前言

爱奇艺HomeAI服务于iQIYI内的多个平台和产品，提供以视频点播为中心的智能语音交互解决方案，同时也在不断通过创新，利用最新的语音相关技术打造全新的玩法。

对于目前大部分的语音交互系统，语音识别，语义理解和操作执行都是独立的模块，因此语音识别的错误后续的模块无法感知也无法反馈，将会在传递的过程中不断放大，最终导致错误的结果。随着智能语音助手所支持的领域越来越多，语言模型的缺陷所导致的语音识别结果误差正在逐步成为整个系统的瓶颈。本文将介绍HomeAI目前的初步成果和未来的思考。

语言模型的局限性

统计语言模型是通过对大量文本语料学习得到的描述词序列的出现概率的模型，被广泛应用在语音识别，自然语言处理等领域，它相比传统的基于规则的语言模型具有更好的鲁棒性。

正因如此，语音识别和意图识别的语言模型无法快速的扩展，因此这两个模块对社会热点或者新播热剧很难有效的响应。

相对的，执行层面在进行视频搜索时的基于片库的语言模型在日新月异的变化。两种模型的差异导致语音识别过程中无法更倾向于解析出和片库内容相符的实体。

爱奇艺HomeAI在语音交互领域的探索

一个典型的错误

先让我们通过一个简单的例子来看一下，语音识别的错误是如何影响最终的结果的。

爱奇艺HomeAI在语音交互领域的探索

由于用户输入的“声临其境”没有在语音识别的语言模型中，但是却存在与其发音非常接近的成语存在（这种命名方式当前非常普遍），导致语音识别输出了高置信度的错误结果，得到了不符合用户预期的结果（路径1）。

通常，我们会尝试通过执行端的纠错，在这个例子中为搜索时的模糊匹配（路径2）来修复此类问题。但是由于模糊匹配的结果置信度较低，因此当整个系统支持多个领域的技能时，将有可能被其他领域的结果PK掉（路径3）。

而由于之前提到的语言模型的缺陷，即使让ASR提供排名前N的识别结果，也无法包含正确的结果。在HomeAI中，我们尝试在意图识别层面，利用自己的语言模型对ASR的结果进行纠错（路径4），从而更好的解决类似的问题。

分离语言模型

既然ASR中的语言模型一定程度上导致了对于实体的识别错误，那首先我们要做的就是要淡化语义在ASR中所起的作用，将发音信息和语义信息分层解耦。

爱奇艺HomeAI在语音交互领域的探索

在传统的语音识别模型最后，我们把解码部分分成了两层，先解码到拼音（即发音信息），再解码到文字，这样输出中可以同时保留两层结果供后续模块使用。对于外部的语言识别服务的结果，我们也会基于其输出的拼音信息进行实体的检索，以减少ASR的错误结果对后续意图识别的影响。

意图识别进行实体增强

HomeAI采用了主流的领域->意图->填槽的方式进行自然语言处理。由于之前在语音识别中弱化了发音到文字的转换，因此需要在意图识别时进行增强。HomeAI在意图识别过程中分两步对实体信息进行纠错：

1.结合ASR的语义层和声学层输出，以及意图识别的语言模型，尝试对原输出中的实体进行纠错

2.在词向量中拼接拼音特征，增强模型对相似发音的泛化能力

爱奇艺HomeAI在语音交互领域的探索

总结

由于语言模型在语音交互的各个模块中无法同步，且模块之间无反向反馈。导致语音识别的错误在模块自身不感知的情况下被后续处理模块初步放大，并最终产生了不符合用户预期的结果。为此，HomeAI通过将语音识别过程中，语义理解部分，即拼音到文本的转化弱化，交由后续的意图识别模块进一步增强，结合片库中的实体信息，在视频点播场景对用户体验有明显的提升。

未来发展

从语音交互向智能助手的发展还有很长的道要走，HomeAI也会继续在这个领域不断投入。除了扩展视频点播以外更多的使用场景，可针对用户和环境自适应的交互模型也会是我们的研究重点。许多言语只有与特定人和特定上下文环境结合才能正确的理解，这些是单一的云端模型所无法解决的。我们希望能够以一个通用的模型为基础，结合用户端的自适应能力，使系统在交互过程中能够通过反馈，逐渐适应用户的口音，习惯，常用词汇，相关实体等等，打造私人定制的语音助手。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们

推荐阅读

搜索
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
搜索
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
搜索
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
算法
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
数据挖掘
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
数据挖掘
MicroATX与MATX：主板规格详解

本文详细介绍了MicroATX（也称Mini ATX）和MATX主板规格，探讨了它们的结构特点、应用场景及对电脑系统成本和性能的影响。同时，文章还涵盖了相关操作系统的实用技巧，如蓝牙设备图标删除、磁盘管理等。 ... [详细]

蜡笔小新 2024-12-25 18:53:29
深度学习
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
深度学习
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
深度学习
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
自然语言处理
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
自然语言处理
电脑网络连接异常及硬件问题求助

近期遇到电脑网络不稳定和游戏时频繁重启的问题，寻求专业建议。网络环境为ADSL调制解调器通过路由器共享给两台电脑使用，怀疑存在ARP攻击或硬件配置问题。希望获得详细的故障排查和解决方案。 ... [详细]

蜡笔小新 2024-12-26 14:46:19
自然语言处理
武汉大学计算机学院研究生入学考试科目及专业方向

武汉大学计算机学院为考生提供了多个硕士点，涵盖计算机科学与技术、软件工程、信息安全等多个领域。考研科目包括思想政治理论、英语一或二、数学一或二以及专业基础课程。具体的专业方向和考试科目详见正文。 ... [详细]

蜡笔小新 2024-12-26 09:58:50
自然语言处理
UnityGUI 扩展与自定义控件

本文介绍了如何通过扩展 UnityGUI 创建自定义和复合控件，以满足特定的用户界面需求。内容涵盖简单和静态复合控件的实现，并展示了如何创建复杂的 RGB 滑块。 ... [详细]

蜡笔小新 2024-12-26 08:36:29
自然语言处理
Java编程实践：深入理解方法重载

本文介绍了Java中方法重载的概念及其应用。通过多个示例，详细讲解了如何在同一类中定义具有相同名称但不同参数列表的方法，以实现更灵活的功能调用。 ... [详细]

蜡笔小新 2024-12-25 19:37:41
数据挖掘
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51

荆灬樊小姐_526

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章