当前位置: 开发笔记 > 编程语言 > 正文

广泛的信号处理链如何让语音助理“正常工作”

作者：也曾悲摧过_192 | 来源：互联网 | 2023-07-30 14:03

广泛的信号处理链如何让语音助理“正常工作”Howextensivesignalprocessingchainsmakevoiceassistants‘justwork’智能音箱

How extensive signal processing chains make voice assistants ‘just work’

智能音箱和声控设备越来越受欢迎&＃xff0c;亚马逊的Alexa和谷歌的助手等语音助手越来越能理解请求。

这种界面最吸引人的地方之一就是“管用”——没有用户界面可学&＃xff0c;可以越来越多地像人一样用自然语言与小工具交谈&＃xff0c;并得到有用的回应。但要实现这种功能&＃xff0c;需要进行大量复杂的处理。

在本文中&＃xff0c;将研究语音控制解决方案的体系结构&＃xff0c;并讨论幕后发生的事情&＃xff0c;以及所需的硬件和软件。

Signal flow and architecture

信号流与结构

虽然声控设备种类繁多&＃xff0c;但其基本原理和信号流程是相似的。让考虑一个智能扬声器&＃xff0c;例如Amazon的Echo&＃xff0c;并查看涉及的主要信号处理子系统和模块。

图1显示了智能扬声器中的整个信号链。
在这里插入图片描述
图1&＃xff1a;语音助手的信号链&＃xff0c;基于CEVA的ClearVox和WhisPro。

从图的左侧开始&＃xff0c;可以看到&＃xff0c;一旦使用语音活动检测&＃xff08;VAD&＃xff09;检测到一个语音&＃xff0c;就会被数字化&＃xff0c;并经过多个信号处理阶段&＃xff0c;以提高所需主扬声器语音到达方向的清晰度。数字化的、经过处理的语音数据随后被传递到后端语音处理&＃xff0c;这可能部分发生在边缘&＃xff08;设备上&＃xff09;&＃xff0c;部分发生在云端。最后&＃xff0c;如果需要&＃xff0c;会产生一个响应&＃xff0c;并由扬声器输出&＃xff0c;这需要解码和数模转换。对于其应用程序&＃xff0c;可能存在一些差异&＃xff0c;优先级也会有所不同——例如&＃xff0c;需要优化车内语音接口&＃xff0c;以处理车内典型的背景噪音。此外&＃xff0c;受入耳式耳机和低成本家用电器等小型设备需求的推动&＃xff0c;总体趋势是降低功耗和降低成本。

Front-end signal processing

前端信号处理

一旦语音被检测并数字化&＃xff0c;就需要执行多个信号处理任务。除了外部噪声&＃xff0c;还需要考虑由收听设备产生的声音&＃xff0c;例如&＃xff0c;智能扬声器输出音乐或与电话另一端的人交谈。为了抑制这些声音&＃xff0c;该设备使用声学回声消除&＃xff08;AEC&＃xff09;&＃xff0c;因此用户可以闯进来打断智能扬声器&＃xff0c;即使已经在播放音乐或讲话。一旦这些回波被去除&＃xff0c;噪声抑制算法就被用来清除外部噪声。

虽然有许多不同的应用&＃xff0c;可以把归纳为两类声控设备&＃xff1a;近场和远场拾音。近场设备&＃xff0c;如耳机、耳塞、听筒和可穿戴设备&＃xff0c;都是放在或戴在用户嘴边的&＃xff0c;而远场设备&＃xff08;如智能扬声器和电视&＃xff09;的设计是为了从房间的另一端聆听用户的声音。

近场设备通常使用一个或两个麦克风&＃xff0c;但远场设备通常使用三到八个麦克风。究其原因&＃xff0c;远场设备比近场设备面临更多挑战&＃xff1a;随着用户移动的更远&＃xff0c;到达麦克风的声音逐渐变得更安静&＃xff0c;而背景噪音则保持不变。同时&＃xff0c;该设备还必须将直接的语音信号与墙壁和其表面的反射&＃xff08;即混响&＃xff09;分开。

为了解决这些问题&＃xff0c;远场设备采用了一种称为波束形成的技术。使用多个麦克风&＃xff0c;并根据到达每个麦克风的声音信号之间的时间差来计算声源的方向。这使得设备可以忽略反射和其声音&＃xff0c;只听用户的声音&＃xff0c;并跟踪移动&＃xff0c;在有多人交谈的地方放大正确的声音。

对于聪明的演讲者来说&＃xff0c;另一个关键任务是识别“触发器”单词&＃xff0c;例如“Alexa”。由于演讲者总是在听&＃xff0c;这种触发识别会引发隐私问题——如果用户的音频总是被上传到云端&＃xff0c;即使不说触发词&＃xff0c;对亚马逊或谷歌听到所有的对话感到舒服吗&＃xff1f;相反&＃xff0c;可以更好地处理触发器识别&＃xff0c;以及许多流行的命令&＃xff0c;例如在智能扬声器本身的本地“提高音量”&＃xff0c;只有在用户启动了更复杂的命令之后&＃xff0c;音频才会被发送到云端。

最后&＃xff0c;在最终发送到云后端进行进一步处理之前&＃xff0c;必须对清澈的语音样本进行编码。

Specialized solutions

专业解决方案

从上面的描述可以清楚地看出&＃xff0c;前端语音处理必须能够处理很多任务。必须快速准确地完成这项工作&＃xff0c;而且对于电池供电的设备&＃xff0c;功耗必须保持在最低限度——即使设备总是在监听触发字。

为了满足这些需求&＃xff0c;通用数字信号处理器&＃xff08;dsp&＃xff09;或微处理器在成本、处理性能、尺寸和功耗方面不太可能胜任这项工作。相反&＃xff0c;一个更好的解决方案可能是一个特定于应用的DSP&＃xff0c;具有专用的音频处理功能和优化的软件。选择已经针对语音输入任务进行了优化的硬件/软件解决方案也将降低开发成本&＃xff0c;大幅缩短上市时间&＃xff0c;同时降低总体成本。

例如&＃xff0c;CEVA的ClearVox是一套语音输入处理算法的软件套件&＃xff0c;可以处理不同的声学场景和麦克风配置&＃xff0c;包括扬声器的声音到达方向、多麦克风波束形成、噪声抑制和声学回声消除。ClearVox经过优化&＃xff0c;可在CEVA sound DSP上高效运行&＃xff0c;从而提供一个经济高效、低功耗的解决方案。

除了语音处理&＃xff0c;edge设备还需要处理触发字检测的能力。一个专门的解决方案&＃xff0c;如CEVA的WhisPro&＃xff0c;是实现所需精度和低功耗的极好方法&＃xff08;见图2&＃xff09;。WhisPro是一个基于神经网络的语音识别软件包&＃xff0c;专门为CEVA的dsp提供&＃xff0c;使原始设备制造商能够在其支持语音的产品中添加语音激活功能。可以处理所需的始终在线监听&＃xff0c;而主处理器则在需要时保持休眠&＃xff0c;从而显著降低了整个系统的功耗。
在这里插入图片描述
图2&＃xff1a;使用语音处理和语音识别进行语音激活。

WhisPro可以实现95%以上的触发识别率和多个自定义词组的支持。任何一个使用过智能扬声器的人都可以证明&＃xff0c;让可靠地响应叫醒词——即使是在嘈杂的环境中——有时也是一种令人沮丧的经历。正确地使用这一功能可以极大地改变消费者对语音控制产品质量的看法。

语音识别&＃xff1a;本地还是云

一旦语音被数字化和处理&＃xff0c;就需要某种自动语音识别&＃xff08;ASR&＃xff09;能力。ASR技术有很多种&＃xff0c;从简单的关键字检测到需要用户说出特定的关键字&＃xff0c;到复杂的自然语言处理&＃xff08;NLP&＃xff09;&＃xff0c;用户可以像称呼另一个人一样正常说话。

关键词检测有很多用途&＃xff0c;即使词汇非常有限。例如&＃xff0c;一个简单的智能家居设备&＃xff0c;比如电灯开关或恒温器&＃xff0c;可能只对一些命令做出响应&＃xff0c;比如“开”、“关”、“亮”、“调光”等等。这种级别的ASR可以轻松地在本地、边缘进行处理&＃xff0c;而无需互联网连接&＃xff0c;从而降低成本&＃xff0c;确保快速响应&＃xff0c;并避免安全和隐私问题。

另一个例子是&＃xff0c;许多Android智能手机可以通过说“cheese”或“smile”来拍照&＃xff0c;而将命令发送到云端只需花费太长时间。这是假设互联网连接是可用的&＃xff0c;而智能手表或听筒等设备并不总是如此。

另一方面&＃xff0c;许多应用程序需要NLP。如果想问回声扬声器天气&＃xff0c;或为找到一个酒店今晚&＃xff0c;那么可以用许多不同的方式表达问题。该设备需要能够理解命令中可能存在的细微差别和俗语&＃xff0c;并且能够可靠地计算出所询问的内容。简言之&＃xff0c;需要能够将言语转化为意义&＃xff0c;而不仅仅是将言语转化为文本。

以酒店询价为例&＃xff0c;可能需要询问大量可能的因素&＃xff1a;价格、位置、评论以及其许多因素。NLP系统必须解释所有这些复杂性&＃xff0c;以及一个问题可能用的许多不同的措辞方式&＃xff0c;以及请求中缺乏清晰性——说“给找一个有价值的中央酒店”对不同的人来说意味着不同的事情。要获得准确的结果&＃xff0c;还需要设备考虑问题的上下文&＃xff0c;并识别用户何时提出相关的后续问题&＃xff0c;或在一个查询中请求多个信息。

这可能需要大量的处理&＃xff0c;通常使用人工智能&＃xff08;AI&＃xff09;和神经网络&＃xff0c;这对于仅在边缘进行处理来说通常是不实际的。带有嵌入式处理器的低成本设备将没有足够的功率来处理所需的任务。在这种情况下&＃xff0c;正确的选择是将数字化语音发送到云端进行处理。在那里&＃xff0c;可以对其进行解释&＃xff0c;并将适当的响应发送回语音控制设备。

可以看到在设备上的边缘处理和云中的远程处理之间存在权衡。在本地处理所有事情可以更快&＃xff0c;而且不依赖于有互联网连接&＃xff0c;但将难以处理更广泛的问题和信息获取。这意味着对于一个通用设备&＃xff0c;比如家庭中的智能扬声器&＃xff0c;至少需要将一些处理推送到云端。

为了解决云处理的缺点&＃xff0c;在本地处理器的功能上有了一些发展&＃xff0c;在不久的将来&＃xff0c;可以看到边缘设备中NLP和AI的巨大改进。新技术正在减少所需的内存量&＃xff0c;处理器继续变得更快&＃xff0c;更少的耗电量。

例如&＃xff0c;CEVA的NeuPro系列低功耗AI处理器为边缘提供了复杂的功能。基于CEVA在计算机视觉神经网络方面的经验&＃xff0c;该系列产品为设备语音处理提供了一个灵活、可扩展的解决方案。

结论

语音控制接口正迅速成为日常生活的重要组成部分&＃xff0c;并将在不久的将来添加到越来越多的产品中。改进的动力来自更好的信号处理和语音识别能力&＃xff0c;以及更强大的本地和云端计算资源。

为了满足原始设备制造商的要求&＃xff0c;用于音频处理和语音识别的组件需要在性能、成本和功率方面满足一些严峻的挑战。对于许多设计师来说&＃xff0c;针对手头的任务进行了专门优化的解决方案很可能是最好的方法——满足最终客户的需求&＃xff0c;并缩短上市时间。

无论基于什么样的技术&＃xff0c;语音接口将变得更准确&＃xff0c;更容易用日常语言交谈&＃xff0c;而其不断下降的成本将使对制造商更具吸引力。这将是一个有趣的旅程&＃xff0c;看看下一个被用来做什么。

推荐阅读

process
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
command
Mac上安装Jupyter Notebook的详细步骤与技巧

本文将详细介绍如何在Mac上安装Jupyter Notebook，并提供一些常见的问题解决方法。通过这些步骤，您将能够顺利地在Mac上运行Jupyter Notebook。 ... [详细]

蜡笔小新 2024-11-12 00:45:51
tree
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
tree
步入人工智能新时代，这些关键知识点不容错过

步入人工智能新时代，掌握这些关键知识点至关重要。AI技术将成为人类的重要辅助工具，不仅能够扩展和增强人类的智能，还能帮助我们实现更加卓越的成就。新一代人工智能技术的发展将为各行各业带来深远的影响，推动社会进步与创新。 ... [详细]

蜡笔小新 2024-10-29 20:04:07
include
掌握DSP必备的56个核心问题，我已经将其收藏以备不时之需！

掌握DSP必备的56个核心问题，我已经将其收藏以备不时之需！ ... [详细]

蜡笔小新 2024-10-28 18:26:22
select
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
select
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
select
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
select
如何以云计算的视角进行思考？

在拉斯维加斯举行的Interop 2011大会上，Bitcurrent的Alistair Croll发表了一场主题为“如何以云计算的视角进行思考”的演讲。该演讲深入探讨了传统IT思维与云计算思维之间的差异，并提出了在云计算环境下应具备的新思维方式。Croll强调了灵活性、可扩展性和成本效益等关键要素，以及如何通过这些要素来优化企业IT架构和运营。 ... [详细]

蜡笔小新 2024-11-06 12:40:33
select
计算机设备型号命名解析及品牌资料详述.docx

本文详细解析了计算机设备的型号命名规则，并提供了各品牌的相关资料。具体包括设备名称、品牌、型号、规格配置、生产厂商、数量、单价及金额等信息。例如，直播机房的安装与集成涉及9套设备，总控系统的安装与架构为1套，文艺录音棚的安装与集成则需详见附录中的技术参数。 ... [详细]

蜡笔小新 2024-11-02 16:44:43
select
jar包与war包的区别

1、war是一个web模块，其中需要包括WEB-INF，是可以直接运行的WEB模块；jar一般只是包括一些class文件，在声明了Main_class之后是可以用java命令运行的。2、wa ... [详细]

蜡笔小新 2024-10-20 17:18:51
select
Telegramapp怎样下载Telegram下载官网多少

随着互联网技术的不断发展，人们的生活方式发生了极大的改变，尤其是即时通讯软件的研发，为人与人之间的交流和通信变得更加便捷和快速带来了很好的解决方案intel官网下载 ... [详细]

蜡笔小新 2024-10-19 17:10:19
select
直面成本“刺客”、拒绝繁杂技术花样，压力之下云厂商改变方向｜解读云原生的 2022

作者|褚杏娟本文是“2022InfoQ年度技术盘点与展望”系列文章之一，由InfoQ编辑部制作呈现，重点聚焦云原生领域在2022年的重要进展、动态，希望能帮助 ... [详细]

蜡笔小新 2024-10-18 14:52:37
select
容联云亮相世界人工智能大会发布容犀机器人助力产业数字化转型

2021世界人工智能大会（“WAIC2021”）近日在上海开启，今年大会主题是“智联世界，众智成城”，容联云作 ... [详细]

蜡笔小新 2024-10-17 10:52:39
process
开发笔记:Linux 系统安装下安装 mysql5.7（glibc版）

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Linux系统安装下安装mysql5.7（glibc版）相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-10-12 09:07:02

也曾悲摧过_192

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章