远场语音识别错误率降低30%，百度提基于复数CNN网络的新技术

作者：李东润 | 来源：互联网 | 2023-07-30 16:39

【12月公开课预告】，入群直接获取报名地址12月11日晚8点直播主题：人工智能消化道病理辅助诊断平台——从方法到落地12月12日晚8点直播：

【12月公开课预告】&＃xff0c;入群直接获取报名地址
12月11日晚8点直播主题&＃xff1a;人工智能消化道病理辅助诊断平台——从方法到落地
12月12日晚8点直播&＃xff1a;利用容器技术打造AI公司技术中台
12月17日晚8点直播主题&＃xff1a;可重构计算&＃xff1a;能效比、通用性&＃xff0c;一个都不能少

作者 | Just

出品 | AI科技大本营&＃xff08;ID:rgznai100&＃xff09;

距离3米甚至5米处&＃xff0c;用户与智能音箱对话是一个典型的远场语音识别应用场景。

在远场环境下&＃xff0c;目标声源距离拾音器较远致使目标信号衰减严重&＃xff0c;加之环境嘈杂&＃xff0c;干扰信号众多&＃xff0c;最终导致信噪比较低&＃xff0c;语音识别性能较差。为了提升远场语音识别准确率&＃xff0c;一般会使用麦克风阵列作为拾音器。利用多通道语音信号处理技术&＃xff0c;增强目标信号&＃xff0c;提升语音识别精度。

不过&＃xff0c;传统数字信号处理技术已经无法满足技术发展的需求&＃xff0c;用深度学习技术来替代麦克阵列系统中的传统数字信号处理已经开始成为行业主流。但此前行业提出的解决方案需要和数字信号处理过程看齐的深度学习模型结构设计&＃xff0c;严重影响了深度学习技术在该方向上的发挥和延伸&＃xff0c;限制了深度学习模型的模型结构的演变&＃xff0c;制约了技术的创新和发展。

在近日举办的百度大脑语音能力引擎论坛上&＃xff0c;百度语音首席架构师贾磊提出了的基于复数卷积神经网络&＃xff08;Convolutional Neural Network&＃xff0c;CNN&＃xff09;的语音增强和声学建模一体化端到端建模技术&＃xff0c;它抛弃了数字信号处理学科和语音识别学科的各种先验假设&＃xff0c;模型结构设计和数字信号处理学科完全脱钩&＃xff0c;发挥了CNN网络的多层结构和多通道特征提提取的优势&＃xff0c;同时充分发挥深度学习学科模型设计灵活自由的学科优势。

据介绍&＃xff0c;相较于传统基于数字信号处理的麦克阵列算法&＃xff0c; 该方法的错误率降低超过30%&＃xff0c;目前已经被集成到百度最新发布的百度鸿鹄芯片中。

基于传统数字信号处理的技术

目前&＃xff0c;语音识别技术在高信噪比场景下表现良好&＃xff0c;但在低信噪比场景下&＃xff0c;往往表现不稳定。

典型的语音识别场景如目标声源、非目标声源、拾音器和语音识别软件系统。以家居场景下的智能音箱产品为例&＃xff0c;目标声源是朝音箱发出指令的用户&＃xff1b;非目标声源是周围的声音干扰&＃xff0c;例如家电噪声&＃xff1b;拾音器和语音识别软件系统是智能音箱。在拾音器拾取到的信号中&＃xff0c;来自目标声源的信号被称为目标信号&＃xff0c;来自非目标声源的信号被称为干扰信号。目标信号强度与干扰信号强度的比值被称为信噪比。

远场语音识别是一个典型的低信噪比场景&＃xff0c;绝大多数在售的智能音箱产品系统目前所采用的多通道语音识别系统&＃xff0c;都是由一个前端增强模块和一个后端语音识别声学建模模块串联而成的&＃xff1a;

前端增强模块通常包括到达方向估计&＃xff08;DOA&＃xff09;和波束生成&＃xff08;BF&＃xff09;。DOA技术主要用于估计目标声源的方向&＃xff0c;BF技术则利用目标声源的方位信息&＃xff0c;增强目标信号&＃xff0c;抑制干扰信号。常用的DOA技术有基于到达时延的定向算法&＃xff0c;基于空间谱估计的定向算法等。

常用的BF技术有最小方差无畸变响应波束成形&＃xff08;MVDR BF&＃xff09;&＃xff0c;线性约束最小方差波束成形(LCMV BF)和广义旁瓣消除波束成形&＃xff08; GSC BF&＃xff09;等。这些BF技术本质上都是提升波束方向内的目标声源方向信号的信噪比&＃xff0c;并尽可能的抑制波束外的非目标方向信号。前端增强模块处理后&＃xff0c;将产生一路单麦克信号&＃xff0c;输入到下面的后端语音识别声学建模模块中。

后端语音识别声学建模模块&＃xff0c;会对这一路增强后的语音信号进行深度学习建模。这个建模过程完全类似于手机上的近场语音识别的建模过程&＃xff0c;只不过输入建模过程的信号不是手机麦克风采集的一路近场信号&＃xff0c;而是用基于麦克阵列数字信号处理技术增强后的一路增强信号。

近些年&＃xff0c;前端语音增强技术也逐渐开始用深度学习来做到达方向估计&＃xff08;DOA&＃xff09;和波束生成&＃xff08;BF&＃xff09;&＃xff0c;不少论文中和产品中也都提到了用深度学习技术来替代麦克阵列系统中的传统数字信号处理技术&＃xff0c;也获得了一些提升。

但是上面这一类语音增强技术大都是采用基于MSE的优化准则&＃xff0c;从听觉感知上使得波束内语音更加清晰&＃xff0c;波束外的背景噪音更小。但是听觉感知和识别率并不完全一致。而且这种方法在噪音内容也是语音内容的时候&＃xff0c;性能会急剧下降。另外&＃xff0c;前端语音增强模块的优化过程独立于后端识别模块。该优化目标与后端识别系统的最终目标不一致。目标的不统一很可能导致前端增强模块的优化结果在最终目标上并非最优。

另外&＃xff0c;由于真实产品场合&＃xff0c;声源环境复杂&＃xff0c;因此大多数产品都是先由DOA确定出声源方向后&＃xff0c;再在该方向使用波束生成形成波束&＃xff0c;对波束内的信号的信噪比进行提升&＃xff0c;同时抑制波束外的噪音的干扰。这样的机制使得整个系统的工作效果都严重依赖于声源定位的准确性。同时用户第一次说唤醒词或者是语音指令的时候&＃xff0c;第一次的语音很难准确利用波束信息&＃xff0c;影响了首次唤醒率和首句识别率。

2017年&＃xff0c;谷歌团队最早提出采用神经网络来解决前端语音增强和语音声学建模的一体化建模问题&＃xff0c;文章从信号处理的Filter-and-Sum 方法出发&＃xff0c;首先推导出时域上的模型结构&＃xff0c;然后进一步推导出频域上的模型结构FCLP&＃xff08;Factored Complex Linear Projection&＃xff09;&＃xff0c;相比时域模型而言大幅降低了计算量。该结构先后通过空间滤波和频域滤波&＃xff0c;从多通道语音中抽取出多个方向的特征&＃xff0c;然后将特征送给后端识别模型&＃xff0c;最终实现网络的联合优化。

谷歌提出的FCLP结构仍然是以信号处理方法为出发点&＃xff0c;起源于delay and sum滤波器&＃xff0c;用一个深度学习网络去模拟和逼近信号波束&＃xff0c;因此也会受限于信号处理方法的一些先验假设。比如FCLP的最低层没有挖掘频带之间的相关性信息&＃xff0c;存在多路麦克信息使用不充分的问题&＃xff0c;影响了深度学习建模过程的模型精度。

再比如&＃xff0c;beam的方向&＃xff08;looking direction&＃xff09;数目被定义成10个以下&＃xff0c;主要是对应于数字信号处理过程的波束空间划分。这种一定要和数字信号处理过程看齐的深度学习模型结构设计&＃xff0c;严重影响了深度学习技术在该方向上的发挥和延伸&＃xff0c;限制了深度学习模型的模型结构的演变&＃xff0c;制约了技术的创新和发展。最终谷歌学术报告&＃xff0c;通过这种方法&＃xff0c;相对于传统基于数字信号处理的麦克阵列算法&＃xff0c;得到了16%的相对错误率降低。

基于复数CNN的语音增强和声学建模一体化端到端建模技术

贾磊在现场披露了基于复数卷积神经网络&＃xff08;Convolutional Neural Network&＃xff0c;CNN&＃xff09;的语音增强和声学建模一体化端到端建模技术的更多细节。

具体而言&＃xff0c;该模型底部以复数CNN为核心&＃xff0c;利用复数CNN网络挖掘生理信号本质特征的特点&＃xff0c;采用复数CNN, 复数全连接层以及CNN等多层网络&＃xff0c;直接对原始的多通道语音信号进行多尺度、多层次的信息抽取&＃xff0c;期间充分挖掘频带之间的关联耦合信息。在保留原始特征相位信息的前提下&＃xff0c;同时实现了前端声源定位、波束形成和增强特征提取。该模型底部CNN抽象出来的特征&＃xff0c;直接送入百度独有的端到端的流式多级的截断注意力模型中&＃xff0c;从而实现了从原始多路麦克信号到识别目标文字的端到端一体化建模。整个网络的优化准则完全依赖于语音识别网络的优化准则来做&＃xff0c;完全以识别率提升为目标来做模型参数调优。

除了模型结构外&＃xff0c;该方法要想成功落地产品&＃xff0c;还必须解决多路麦克的训练数据的获取和建模问题。要知道&＃xff0c;目前商业语音识别系统的训练数据&＃xff0c;主要依靠从数据公司买来的手机上录制的近场语音数据集合。远场多路麦克数据由于采集设备难于获取和周围噪音环境难于控制&＃xff0c;而很少存在成规模的训练集合。

百度则研发了一种利用近场数据来模拟生成远场训练数据的方法&＃xff1a;模拟一路信号传输到多路麦克风的信号传输过程&＃xff0c;并施加混响噪音和环境加性噪音。利用该方法&＃xff0c;他们做出数百万远场房间环境下的远场多路麦可信号的模拟数据&＃xff0c;并且成功训练出可以达到产品上线级别的一体化声学模型。

论坛上&＃xff0c;搭载了该项语音技术的三款基于鸿鹄语音芯片的硬件产品全新发布&＃xff1a;芯片模组 DSP芯片&＃43;Flash、Android 开发板DSP芯片&＃43; RK3399、RTOS开发板DSP芯片&＃43;ESP32。此外&＃xff0c;贾磊还描述了基于鸿鹄语音芯片的端到端软硬一体远场语音交互方案以及全新发布的针对智能家居、智能车载、智能IoT设备的三大场景解决方案。

此外&＃xff0c;今年年初百度提出截断注意力模型SMLTA&＃xff0c;使得句子的整句识别率、方言的识别以及中英文混合的识别率显著提升&＃xff0c;实现了语音识别领域注意力模型的大规模工业在线产品落地。

而在语音合成领域&＃xff0c;百度首创Tacotron&＃43;wavRNN联合训练&＃xff0c;大幅提升云端合成速度。百度地图20句话即可录制语音导航的技术基于百度独创的风格迁移技术Meitron模型&＃xff0c;特点主要体现在音色转换、多情感朗读和韵律迁移三个方面&＃xff0c;从而大大降低语音合成的门槛。

基于深度学习和产业应用加速突破&＃xff0c;百度的语音技术已落地到百度App&＃xff0c;百度地图、小度音箱&＃xff0c;百度输入法等产品。百度CTO王海峰也在会上宣布&＃xff0c;百度大脑通过AI开放平台已开放228项技术能力&＃xff0c;接入开发者超过150万&＃xff0c;而语音技术日均调用量则超过100亿次。

推荐阅读

我收集了12款自动生成器&＃xff0c;无聊人士自娱自乐专用
如何用Neo4j和Scikit-Learn做机器学习任务&＃xff1f;| 附超详细分步教程
谷歌母公司创始人双双引退&＃xff0c;劈柴哥上位&＃xff01;
对话阿里云叔同&＃xff1a;释放云价值&＃xff0c;让容器成为“普适”技术
激辩&＃xff1a;机器究竟能否理解常识&＃xff1f;
Instagram个性化推荐工程中三个关键技术是什么&＃xff1f;
从YARN迁移到k8s&＃xff0c;滴滴机器学习平台二次开发是这样做的
丁磊向左&＃xff0c;刘强东向右
华裔候选人Andrew Yang加密政策公布&＃xff0c;如果当选美国总统这些法规将会实施
你点的每个“在看”&＃xff0c;我都认真当成了AI

推荐阅读

ip
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
int
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
php
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
random
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
int
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
int
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
int
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
ip
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
int
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
int
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
default
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
int
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
select
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
char
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
char
老牌医药收割AI红利：先投个15亿美元抢中国人才

萧箫发自凹非寺量子位报道|公众号QbitAI没想到，一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场，能看见不少熟悉的身影， ... [详细]

蜡笔小新 2023-10-17 17:40:25