嘘，AI正在悄悄听懂你的话

作者：靜钕孓626 | 来源：互联网 | 2023-09-08 16:43

小时候看特务电影时，特工们往往有一项必备的技能，就是隔着几百米远盯着正在说话的对象，从嘴型判断出对方在说什么。有了这种记忆，导致

小时候看特务电影时，特工们往往有一项必备的技能，就是隔着几百米远盯着正在说话的对象，从嘴型判断出对方在说什么。有了这种记忆，导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂，算什么AI好汉。

不过最近一项专利申请表明，微软正在向特工学习，推出了无声语音识别技术。当AI也能像特工一样，无声之中辩人言，我们的世界究竟会有什么不同？

除去唇语识别，AI还有什么方式悄悄听懂你的话？

说起无声语音识别，可能很多人第一反应就是复制人类的方式，利用图像识别进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久，但是识别的准确率一直不算高。DeepMind曾在2016年做过测试，经过1万小时的新闻视频训练，AI唇语准确率达到了46.8%。国内有一家企业曾经提供过相关数据：在对中文新闻视频的识别中，准确率达到了70%。而搜狗所推出的驾驶场景下的唇语识别，因为涉及到的词汇量很少，准确率能够达到90%。

可以发现，相比现在主流语音识别动辄95%、97%的准确率，唇语识别准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好，对于英文这种连音很多的语言来说，唇语识别要跨越的门槛确实不少。

另一方面来看，唇语识别所涉及到伦理问题实在过于严重。唇语识别的“射程”太远，如果这种技术真的发展成熟，意味着天网之下的我们在交谈时将再无隐私。在隐私焦虑越来越浓的今天，哪家企业公开研究这项技术，只怕是觉得自己家的公关部门过得太清闲。

因此包括微软在内的产业和学界，都在寻找一种更精准也更隐私的无声语言识别。目前看来，无声语音识别的技术方向可以被分为两个“派系”，一是“气宗”，另一个是“电宗”。

微软所提交的专利，就是典型的“气宗”——在终端上添加传感器，通过感知用户说话时的气流来判断用户说话的内容。这种终端如同一只小型麦克风，置于用户嘴边，用户在说话时形成的气流会在设备中形成反射，经过训练，可以将这些气流反射的信号和文字一一对应。

而“电宗”则更加神奇，我们知道人在说话时需要调动整个下半张脸的肌肉，不同的文字发音所调动肌肉的方式也并不相同。通过对面部EMG（肌电）信号的采集，来学习人类说话时面部EMG信号特征，并通过神经网络的训练将EMG信号和文字对应起来。

可以看出这两种无声语音识别都有一个共同的特点，那就是自主性和私密性。不管是EMG信号采集还是气流采集，都需要在讲话者身上佩戴好设备，而不是像图像技术一样，能够在远程且讲话者不知情的情况下进行采集分析。

无声语音识别变成真·气功？

不论是气宗还是电宗，这些无声语音识别技术都面临着同样的问题——既然要用户把话说出来才能进行识别，那为什么不直接应用语音识别来进行文字转换和翻译，非要弄一些和“气功”一样没有切实应用场景的花招？

其实无声语音识别的应用，可能不像大家想象的那样广泛，它既不能以最高效的方式帮助听障人士，也不允许被应用于监听等等工作。但在一些关键场合下，无声语音识别却可以发挥出奇用。

我们可以一起开动脑筋，想想在哪里人们需要说话，但却听不到彼此的声音。答案很简单，要么是在声音无法传播的地方，要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景：

灾害现场、舱外探索、水下作业……

在这类场所中，人们或许为了躲避被污染的空气、或许为了呼吸氧气，都会穿上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情，也听不到对方的声音，更没办法用语音交互去控制其他设备了。同时环境情况（例如氧气不够充足）往往不允许人们以正常的声音说话，加上防护服的封闭状况会引起声音的回响，以往的有声语音识别在这种情况下很难发挥作用。

这时可以被安置在防护服内部的无声语音识别就显得很有价值，讲话者只需要做出口型就能向外界传递信息。

除此之外还有嘈杂的马路、工厂车间、机场……

在这些场所中，想要让对方听清自己的声音，往往需要扯着嗓子吼。想让语音识别准确拾音，更是难上加难。这时利用无声语音识别就会轻松很多，不仅可以准确表达信息，也能让一些处于这种场合的工作人员戴上隔音耳塞保护自己的听力。

实际上目前在欧洲一些型号的战斗机中，就因为机舱内噪音巨大、飞行员之间无法沟通，已经应用上了EMG信号无声语音识别技术。

当然，目前相比语音识别技术、甚至相比唇语语音识别，无声语音识别技术的发展阶段还很初级，应用效率也不高。

实际上无声语音识别是一项典型的“美好而无用”的AI技术，它既完美体现了一系列技术的排列组合，例如EMG信号无声语音识别所体现出的AI与神经学的结合；又在应用上极大程度的受限，即使在一些声音难以传播的场景下，也要考虑计算条件、识别语音后信息再传递的媒介，更不用提复杂的数据收集工作了。

但我们有理由相信，在未来AI技术越来越普及化、应用成本越来越低时，总会出现一些极端场景应用上这些看似无用的技术——也许未来有一天，战斗机的控制也要应用上语音交互呢？

推荐阅读

算法
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
图像识别
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
图像识别
全连接神经网络应用于手写图像识别实践

2019独角兽企业重金招聘Python工程师标准转载于:https:my.oschina.netliyangkeb ... [详细]

蜡笔小新 2024-10-23 18:06:55
算法
MATLAB人体行为检测与识别

人体行为检测与识别摘要人体行为检测与识别是当前研究的重点，具有很高的研究价值和广阔的应用前景。主要应用在型人机交互、运动分析、智能监控和虚拟现实也称灵境技术ÿ ... [详细]

蜡笔小新 2024-10-20 19:34:31
自然语言处理
每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖

2019年3月27日——ACM宣布，深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖， ... [详细]

蜡笔小新 2024-09-27 16:03:32
算法
读手语图像识别论文笔记2

文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1（手语识别背景和方法）一、前言一句：“做完了&#x ... [详细]

蜡笔小新 2023-10-17 20:45:15
tensorflow
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
tensorflow
TensorFlow入门上

前置准备在阅读本文之前，请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理，如果尚未了解，可以查看下文。神经网络初探chrer.com也可以直接在我博客阅读Te ... [详细]

蜡笔小新 2023-10-16 10:25:39
算法
鄂维南：从数学角度，理解机器学习的「黑魔法」，并应用于更广泛的科学问题...

作者|Hertz来源|科学智能AISI北京时间2022年7月8日晚上22:30，鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenarytalk)。今 ... [详细]

蜡笔小新 2023-10-15 23:41:17
算法
分享篇：第十届“泰迪杯”数据挖掘挑战赛农田害虫图像识别（特等奖）一

1.1赛题背景昆虫的种类浩如烟海，农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫，保留益虫，消灭害虫，对于减轻害 ... [详细]

蜡笔小新 2023-10-15 19:37:42
算法
射频领域博士学位：信号处理算法在射频技术中的职业前景如何？

射频领域的博士学位在信号处理算法方面具有广阔的职业前景，尤其是在射频技术的应用中。例如，加入华为的射频基站部门，从事数字预失真等关键技术的研发工作。在此过程中，需要注意持续跟踪最新的学术和技术进展，保持对行业动态的敏感性，并不断提升自身的实践能力和创新能力。此外，除了技术层面，还应关注行业的整体发展趋势，以便更好地规划职业生涯。 ... [详细]

蜡笔小新 2024-11-02 18:41:10
神经网络
从零开始掌握PyTorch：生成对抗网络GAN进阶指南（第九篇）

本文将深入探讨生成对抗网络（GAN）在计算机视觉领域的应用。作为该领域的经典模型，GAN通过生成器和判别器的对抗训练，能够高效地生成高质量的图像。本文不仅回顾了GAN的基本原理，还将介绍一些最新的进展和技术优化方法，帮助读者全面掌握这一重要工具。 ... [详细]

蜡笔小新 2024-11-02 13:18:42
算法
吴恩达深度学习课程笔记：第一部分第三周——浅层神经网络详解

浅层神经网络解析：本文详细探讨了两层神经网络（即一个输入层、一个隐藏层和一个输出层）的结构与工作原理。通过吴恩达教授的课程，读者将深入了解浅层神经网络的基本概念、参数初始化方法以及前向传播和反向传播的具体实现步骤。此外，文章还介绍了如何利用这些基础知识解决实际问题，并提供了丰富的实例和代码示例。 ... [详细]

蜡笔小新 2024-11-02 12:20:03
神经网络
共享单车C语言开发项目：全面分析与实现

在该项目中，参与者需结合历史使用模式和天气数据，以预测华盛顿特区自行车共享系统的租赁需求。数据分析部分首先涉及数据的收集，包括用户骑行记录和气象信息，为后续模型构建提供基础。通过深入的数据预处理和特征工程，确保数据质量和模型准确性，最终实现对自行车租赁需求的有效预测。 ... [详细]

蜡笔小新 2024-10-30 10:33:38
神经网络
在Matlab中自主构建与仿真神经网络模型 - Building and Simulating Neural Network Models Independently in Matlab

在Matlab中，我尝试构建了一个神经网络模型，用于预测函数 y = x^2。为此，我设计并实现了一个拟合神经网络，并对其进行了详细的仿真和验证。通过调整网络结构和参数，成功实现了对目标函数的准确估计。此外，还对模型的性能进行了全面评估，确保其在不同输入条件下的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-10-27 11:21:21

靜钕孓626

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章