语音识别系统中增加图像识别技术的设计

作者：竹条蠢爱玉米 | 来源：互联网 | 2023-07-28 14:37

语音识别系统中增加图像识别技术的设计来源：电子技术应用作者：重庆大学通信工程学院叶凌峡摘要：采用机器视觉对语音对象进行跟踪࿰

语音识别系统中增加图像识别技术的设计

来源&＃xff1a;电子技术应用作者&＃xff1a;重庆大学通信工程学院叶凌峡

摘要&＃xff1a;采用机器视觉对语音对象进行跟踪&＃xff0c;利用说话人正常发音时&＃xff0c;嘴部的开合状况提取语速信息&＃xff0c;实时调整语音识别的工作速度&＃xff0c;匹配语音韵律&＃xff0c;将有效提高语音识别准确性。讨论了系统的设计原理和实现技术&＃xff0c;着重介绍了对应辅助图像识别的设计分析。

关键词&＃xff1a;语音识别机器视觉图像识别

语音识别是机器自动语音识别&＃xff08;automatic speech recognition by machine&＃xff09;的简称。

语音识别技术关系到多学科的研究领域&＃xff0c;不同领域中的研究成果都对语音识别的发展作出了贡献。让机器识别语音的困难在某种程度上就像一个外语不好的人听外围人讲话一样&＃xff0c;它与说话人、说话速度、说话内容、环境条件有关。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性、动态性、瞬时性和连续性等。

计算机语音识别的过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分&＃xff1a;

&＃xff08;1&＃xff09;语音特征提取&＃xff1a;其目的是从语音波形中提取出随时间变化的语音特征序列。

&＃xff08;2&＃xff09;声学模型与模式匹配&＃xff08;识别算法&＃xff09;&＃xff1a;声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征与声学模型&＃xff08;模式&＃xff09;进行匹配、比较&＃xff0c;得到最佳的识别结果。

&＃xff08;3&＃xff09;语言模型与语言处理&＃xff1a;语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型&＃xff0c;语言处理可以进行语法、语义分析。对小词表语音识别系统&＃xff0c;通常不需要语言处理部分。

声学模型是识别系统的底层模型&＃xff0c;并且是语音识别系统中最关系的一部分。声学模型的目的是提供一种有效的方法&＃xff0c;计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计与语言发音特点密切相关。声学模型单元大小&＃xff08;字发音模型、半音字模型或音素模型&＃xff09;对语音训练数据量大小、系统识别率以及灵活性有较大的影响。必须根据不同的语言的特点、识别系统词汇量的大小决定识别单元的大小。由于有了种种困难&＃xff0c;语音识别技术通常根据使用中的限制性要求&＃xff0c;构建成不同类型的系统&＃xff0c;通常包括三类。其一为限制用户的说话方式&＃xff0c;这又可以分为孤立词语音识别系统&＃xff08;isolate-word speech recognition system&＃xff09;、连接词语音识别系统&＃xff08;connected-words speech recognition system&＃xff09;、连续语音识别系统&＃xff08;continue speech recopnition system&＃xff09;和即兴口语语音识别系统&＃xff08;spontaneous speech recognition system&＃xff09;。其二为限制用户的用词范围。第三种为限制系统的用户对象。采用语速作为系统的第二信息渠道&＃xff0c;一旦系统跟踪到了目标的语还&＃xff0c;在协助语音识别的同时还能够有效地排除与语音信息不同步的外界噪声&＃xff0c;因此系统能够获得更好的识别性能。 2&＃xff0e;2&＃xff0e;2 图像处理算法设计

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正&＃xff0c;特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令的语言模型。语法结构可以限定不同词之间的相互连接关系&＃xff0c;减少了识别系统的搜索空间&＃xff0c;这有利于提高系统的识别。

语音识别过程实际上是一种认识过程。就像人们听语音时&＃xff0c;并不把语音和语言的语法结构、语义结构分开。因为当语音发音模糊时人们可以用这些和知识来指导对语言的理解过程&＃xff0c;但是对机器来说&＃xff0c;识别系统也要利用这些知识&＃xff0c;只是如何有效地描述这些语法和语义还有困难&＃xff1a;

&＃xff08;1&＃xff09;小词汇量语音识别系统&＃xff1a;包括几十个词的语音识别系统。

&＃xff08;2&＃xff09;中等词汇量的语音识别系统&＃xff1a;通常包括几百个词至上千个词的识别系统。

&＃xff08;3&＃xff09;大词汇量语音识别系统&＃xff1a;通常包括几千至几万个词的语音识别系统。

这些不同的限制也确定了语音识别系统的困难度。

1 增加图像识别设计的目的

如今的语音识别技术正在逐渐成熟&＃xff0c;许多语音识别技术都已经能够达到很高的识别率了&＃xff0c;不过当识别率到了一定的程度后&＃xff0c;再提高就很困难&＃xff0c;此时需要采用其他技术来协助语音的识别。

目前的语音识别系统由于采用单一传感器&＃xff08;声音传感器&＃xff09;进行工作&＃xff0c;在进行语音识别时&＃xff0c;不可能对捕获的语音信息进行细分&＃xff0c;只能采用定速率跟踪识别&＃xff0c;将语音信息与系统库中的模板进行匹配判断。如果捕获信息的速率与存储在系统库中的模板相关不多&＃xff0c;则能正常工作&＃xff0c;否则将会出现误判。然而现实生活中&＃xff0c;人们说话不可能总保持相同的速率&＃xff0c;而是不断变化的&＃xff0c;这势必造成了语音识别系统的误差增多&＃xff0c;以致降低语音识别系统的实用性。

人们在进行语音交流时&＃xff0c;在捕获语音信息的同时&＃xff0c;也在获取其他的信息以帮助理解&＃xff0c;例如表情、神态等信息。如果得不到相关信息&＃xff0c;人们相互之间也会产生误解&＃xff0c;例如当两个人在相隔较远距离时&＃xff0c;由于不能清楚对方的表情、神态&＃xff0c;经常会出现理解错误的情况发生。可见使用单一的信息渠道的确会增加理解难度&＃xff0c;因此有必要考虑增加信息渠道来解决这个问题。这就是增加图像识别功能的原因。

对于语音识别系统&＃xff0c;如果能像人一样判断语言对象的喜、怒、哀、乐&＃xff0c;当然是最好的&＃xff0c;但这势必大大增加图像识别的工作量&＃xff0c;甚至超过语音识别的成本&＃xff0c;不太合理。并且&＃xff0c;由于技术的原因&＃xff0c;还不能使机器有像人一样的视觉能力&＃xff0c;要让机器能够准确识别出人的各种表情还达不到&＃xff0c;所以此种方案是不可取的。进一步分析知道&＃xff0c;语音识别系统受语速的影响是很大的。人在正常讲话时&＃xff0c;嘴的开合状态都是大同小异的&＃xff0c;如果让机器只对嘴的开合两种情况进行判断和实时跟踪&＃xff0c;得出讲话人的语速信息&＃xff0c;是能够做到的。所以仅仅需要机器识别出人说话的速度&＃xff0c;以此来调整语音识别的匹配速度&＃xff0c;从而适合语音韵律&＃xff0c;自然有利于系统的语音识别能力&＃xff0c;提高识别的准确性。通过语速对语音识别系统的帮助&＃xff0c;将为语音系统提供另一条实用的信息渠道。

2 实现的技术及方法

2&＃xff0e;1 系统总体设计概述

语音系统采集说话人&＃xff08;语言对象&＃xff09;的两路信息&＃xff0c;一路由声音传感器取得&＃xff0c;一路由摄像设备取得。摄像设备取得人的嘴型变化后&＃xff0c;将之转化为语速信息送到语音识别器与采集到的语音进行匹配识别&＃xff0c;自动调节识别速度&＃xff0c;更好地完成语音识别工作。系统的工作流程如图1。

2&＃xff0e;2 辅助图像识别设计

捕获语言对象的说话速率是保证整个系统良好工作的关键。为了实现此目的&＃xff0c;使用基于机器视觉的人嘴部状态检测方法来设计。由于对图像的识别精度要求不高&＃xff0c;可以选择灰度图像以提高运算速度。在速度允许的情况下&＃xff0c;彩色图像的识别精度会更高。

2&＃xff0e;2&＃xff0e;1 流程分析

整个辅助图像识别设计的目的就是通过机器视觉进行图像采集、图像处理&＃xff0c;提取出说话人的语速信息供语音系统使用。

以灰度图像为例&＃xff0c;其图像处理过程如图2。

对于彩色图像&＃xff0c;特征量会更多一些&＃xff0c;也就更复杂一些&＃xff0c;但其基本步骤都是先完成图像数字化&＃xff0c;再进行图像特片提取&＃xff0c;最后进行图像识别和理解。

当完成图像处理后&＃xff0c;比较模块将这一帧图像与上一帧图像的数据进行对比&＃xff0c;判断出变化&＃xff0c;从而统计出语速信息&＃xff0c;最后输出给语音识别器进行匹配工作。

&＃xff08;1&＃xff09;图像分割

经过对人脸RGB像素的分析&＃xff0c;发现人脸图像中的R、G两分量符合二维高斯分布。因此&＃xff0c;可通过这两个分量确定人脸的位置。在人脸定位的基础上&＃xff0c;根据人的嘴部处于人脸下半部分的特片&＃xff0c;比较容易确定出嘴部的大致位置&＃xff0c;它为嘴部精确定位提供了基本条件&＃xff0c;如图3所示。

&＃xff08;2&＃xff09;图像特征的提取

根据系统要求&＃xff0c;灰度图像可以满足需要&＃xff0c;但由于嘴唇与皮肤的灰度差别不大&＃xff0c;而且灰度信息更容量受到光照条件、人脸的运动和旋转变化等影响&＃xff0c;使人脸图像中嘴唇区域边缘不明显&＃xff0c;特别是当嘴唇内部的阴影区域与牙齿交替出现时&＃xff0c;嘴唇的边缘变得更加模糊&＃xff0c;所以利用唇色和肤色的灰度及边缘信息分割不能达到很高的准确度。若要提高对嘴部状况的识别准确度&＃xff0c;可以利用彩色信息来对人嘴的形状、位置进行确定。

研究发现&＃xff0c;嘴唇的主要颜色特征是唇色相对肤色颜色较红&＃xff0c;而且归一化RGB颜色对光照、人脸运动和旋转具有不变性。因此利用颜色信息&＃xff0c;采用模式分类技术分割嘴唇区域&＃xff0c;可以克服灰度图像本身固有的缺点。由于Fisher线性分类器能够最大限度地分开两类&＃xff0c;且其学习是离线处理&＃xff0c;减少了计算量&＃xff0c;因此可采用Fisher线性分类器进行嘴唇区域分割。

人嘴在说话与正常情况下的外形有明显的区别。说话时嘴部张开较大&＃xff0c;而正常情况下&＃xff0c;嘴部基本闭合&＃xff08;图4&＃xff09;。因此&＃xff0c;可以利用这些特征进行嘴部状态的检测。研究中发现&＃xff0c;嘴部区域的最大宽度Wmax、最大高度Hmax能够表征嘴部的张开程度&＃xff0c;应取为特征值&＃xff1b;上嘴唇与下嘴唇之间的高度Hmin在说话不说话时也有明显不同&＃xff0c;应取为特征值。将以上三个特征值组成一组向量&＃xff0c;即可描述出不同状态下的嘴部几何特片&＃xff0c;如图5所示。

将获得的能够描述人的嘴部区域几何形状特征参数组成一个特征向量Zui&＃xff0c;即可作为下一步判别分类的输入向量&＃xff1a;Zui&＃61;(Wmax,Hmax,Hmin)。

在进行识别时只要确定两个状态“开”、“合”即可。在实际中由于发音时不同的语音会导致嘴的开合程度不一&＃xff0c;所以对“开”&＃xff08;Hmin>0&＃xff09;的区分会很多种情况&＃xff0c;必然会极大地增加运算存储量。相对而言&＃xff0c;嘴的“闭合”状态一般只有一种模式&＃xff08;Hmin&＃61;0&＃xff09;&＃xff0c;因此可以只确定说话人嘴的“闭合”状态&＃xff0c;其他状态都判为“开”&＃xff0c;这样将方便处理。

&＃xff08;3&＃xff09;图像识别理解

由于对识别精度要求不高&＃xff0c;既可以采用传统的统计模式识别方法&＃xff0c;也可以采用较热门的神经网络识别方法&＃xff1b;但由于系统对实时要求较高&＃xff0c;而神经网络识别方法运行速度成问题&＃xff0c;因此不建议采用神经网络识别方法。

2&＃xff0e;3 语速信息的提取

选用合适的捕获频率不断采集说话人的图像&＃xff0c;用当前帧的数据与上一帧数据进行比较&＃xff0c;根据其变化的频率就可以推算出语速信息。实际情况中&＃xff0c;所求的语速信息不需要太精确就能够达到一般要求。

3 应用展望

语音识别是一种赋能技术&＃xff0c;现有的很多人机交互界面都可能通过补充语音识别功能而得到改善。语音识别技术可以把费脑、费力、费时的机器操作变成一件很容易且有趣味性的事情&＃xff0c;在许多“手忙”、“手不能用”、“手所不能及”、“懒得动手”的场景中&＃xff0c;包括像驾驶室、一些危险的工业场合、家电控制等方面&＃xff0c;高识别率的语音识别系统将会更加方便人的工作和生活。

由于知识层次和知识领域的差异&＃xff0c;现实生活中有相当一部分人很难享受到现代化生活带来的便利&＃xff0c;包括信息服务和其他各类先进设备可提供的帮助。高识别率语音识别技术有助于改善这种情况&＃xff0c;使社会各个阶层更多的人享受到更多的社会信息资源和现代化服务&＃xff0c;提高整个社会的信息化程度和现代化速度。

高识别率语音识别技术还将推出机器人智能技术的发展&＃xff0c;由于机器人本来就要配置视觉系统&＃xff0c;本方案很容易实现&＃xff0c;提高了人与机器交互的能力。另外高识别率语音识别技术在语音录入系统、会议实时记录及同声翻译、记者采访设备等方向有着广阔的应用前景。

推荐阅读

机器人
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
机器人
每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖

2019年3月27日——ACM宣布，深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖， ... [详细]

蜡笔小新 2024-09-27 16:03:32
include
掌握DSP必备的56个核心问题，我已经将其收藏以备不时之需！

掌握DSP必备的56个核心问题，我已经将其收藏以备不时之需！ ... [详细]

蜡笔小新 2024-10-28 18:26:22
php
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
ip
理工科男女不容错过的神奇资源网站

十一长假即将结束，你的假期学习计划进展如何？无论你是在家中、思念家乡，还是身处异国他乡，理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档，能够帮助你在假期中高效学习和提升专业技能。 ... [详细]

蜡笔小新 2024-11-01 11:51:44
ip
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
ip
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
ip
不用蘑菇，不拾金币，我通过强化学习成功通关29关马里奥，创造全新纪录

《超级马里奥兄弟》由任天堂于1985年首次发布，是一款经典的横版过关游戏，至今已在多个平台上售出超过5亿套。该游戏不仅勾起了许多玩家的童年回忆，也成为强化学习领域的热门研究对象。近日，通过先进的强化学习技术，研究人员成功让AI通关了29关，创造了新的纪录。这一成就不仅展示了强化学习在游戏领域的潜力，也为未来的人工智能应用提供了宝贵的经验。 ... [详细]

蜡笔小新 2024-10-28 10:11:47
数组
基于TensorFlow的鸢尾花数据集神经网络模型深度解析

基于TensorFlow的鸢尾花数据集神经网络模型深度解析 ... [详细]

蜡笔小新 2024-10-22 11:56:51
php
MATLAB人体行为检测与识别

人体行为检测与识别摘要人体行为检测与识别是当前研究的重点，具有很高的研究价值和广阔的应用前景。主要应用在型人机交互、运动分析、智能监控和虚拟现实也称灵境技术ÿ ... [详细]

蜡笔小新 2024-10-20 19:34:31
php
读手语图像识别论文笔记2

文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1（手语识别背景和方法）一、前言一句：“做完了&#x ... [详细]

蜡笔小新 2023-10-17 20:45:15
install
TensorFlow入门上

前置准备在阅读本文之前，请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理，如果尚未了解，可以查看下文。神经网络初探chrer.com也可以直接在我博客阅读Te ... [详细]

蜡笔小新 2023-10-16 10:25:39
install
鄂维南：从数学角度，理解机器学习的「黑魔法」，并应用于更广泛的科学问题...

作者|Hertz来源|科学智能AISI北京时间2022年7月8日晚上22:30，鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenarytalk)。今 ... [详细]

蜡笔小新 2023-10-15 23:41:17
install
如何正确安装Python：详细步骤与常见问题解答

本文详细介绍了如何正确安装Python，包括环境准备、下载与安装过程、路径配置等关键步骤，并针对初学者常见的安装问题提供了详细的解答和解决方案，帮助读者顺利搭建Python开发环境。 ... [详细]

蜡笔小新 2024-11-03 11:47:48

竹条蠢爱玉米

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章