首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

亚马逊Alexa真的解决了“鸡尾酒派对”难题吗？

作者：手机用户2502856203 | 来源：互联网 | 2023-08-31 18:12

雷锋网(公众号：雷锋网)按：本文作者王璐、袁媛，原载于声学在线，雷锋网已获得转载授权。在美国加州圣克拉拉市召开的AIFrontier大会上，亚马逊首席科学家NikkoStrom详细

亚马逊Alexa真的解决了“鸡尾酒派对”难题吗？

雷锋网(公众号：雷锋网)按：本文作者王璐、袁媛，原载于声学在线，雷锋网已获得转载授权。

在美国加州圣克拉拉市召开的AI Frontier大会上，亚马逊首席科学家Nikko Strom详细介绍了Alexa背后的深度学习技术，包括深度学习的基本架构，以及语音识别、语音合成等方面的内容，其中，语音识别部分提到了Alexa在应对“鸡尾酒派对难题”所做的工作。那么，什么是“鸡尾酒会派对难题”？难道Alexa已经解决了这个长达半个多世纪的“难题”吗？

鸡尾酒会派对难题

“鸡尾酒会派对难题”其实就是大名鼎鼎的“鸡尾酒会效应”。

鸡尾酒会效应（cocktail party effect）由英国认知科学家Edward Colin Cherry于1953年提出，指的是指人类的一种听力选择能力。在这种情况下，人可以把注意力集中在某一个声音刺激上，而忽略其他的背景声音。也就是说，人类可以集中在某一个人的谈话之中，而忽略背景中其他的对话或噪音。

这个维基百科的解释让我们听的有些云里雾里，其实，我们在现实生活中的许多经历很好的诠释了什么是鸡尾酒会效应。

喧嚣热闹的酒吧舞池里灯光耀眼，音乐劲爆，你和朋友在一旁的吧台聊天，尽管周边的噪音很大，你还是可以听到朋友说的内容。此时，如果远处突然有人叫起你的名字时，你会马上就会注意到。

异国他乡的小餐馆中，周围交谈的食客使用的是各自的母语，西语、法语、葡萄牙语不绝于耳。觥筹交错间远处突然传来一声中文的“嘿！你在这呢？好久不见”，你立刻就能循着声音，定位那个说中文的人。即使你们中间隔着十几张桌子，即使那位朋友的声音并不洪亮。

这些现象我们都称之为“鸡尾酒效应”。这是我们人类听觉系统表现出的惊人天赋。科学家发现，婴儿已经具备选择性注意的能力。五个月大的婴儿就能够在复杂的声音环境中对自己的名字做出反应，这种能力在十三个月大的时候发展成熟。

鸡尾酒会效应的产生机制相当复杂，关于选择性注意和鸡尾酒会效应的成因，学术界提出过四个有影响力的理论模型：Broadbent的过滤器模型、Treisman的衰减模型、Deutsch & Deutsch理论和Kahneman理论。然而，这四种理论模型都不能完美地解释“鸡尾酒会效应”出现的各种现象。所以，目前对于鸡尾酒会效应产生的机制仍然尚没有统一的认识，也就是说还没有统一的理论解释和支撑我们如何解决鸡尾酒问题。

鸡尾酒会效应的产生机制虽然复杂，但对于我们人类来说，在多个声源之间转换注意力是一件非常轻松的事，以至于我们甚至感受不到这个过程的存在。然而，对于我们制造出各种智能设备来说，做到这一点就是非常有难度的。

在实际应用中，当我们对智能设备发出命令时，我们可以通过麦克风阵列确定声源位置，并通过波束形成定向拾取该方向的声音。然而，这同一方向可能不仅有噪音的干扰，还有电视或其他人同时说话的声音。设备需要在相互混杂的声音中准确提取出对它发出指令的声音，而不受其他声音的影响。

对于我们制造出各种智能设备来说，它们还无法像人类那样做到自由地切换注意力。机器目前还不能自主区分一个方向内众多人声中，到底哪一个是对它有用的声音。

Alexa如何应对“鸡尾酒会问题”？

自Cherry提出“鸡尾酒会问题”半个多世纪以来，大量的科学家试图去解决这个问题，包括自动语音识别（ASR）的预处理，说话人识别，说话人变化检测，说话人分离，结束指向和手动转录等。1985年，有学者提出了盲信号分离（blindsignal separation），在不知道原始信号的信息和混合方法时，可以比较有效地恢复独立的原始信号。后辈学者通过不断改进，引入了神经网络的方法，正在逐步提高信号分离的效果。

而此次AI Frontier大会上，Nikko博士介绍亚马逊使用的方法则是基于上下文联系的“Anchored Speech Detection”。这篇发表于2016年的论文中提到了两种检测目标语音的方法，首先需要用户先说出一个“anchor word”，例如唤醒词“Alexa”，作为我们学习说话者语音特征的参考。

第一种方法中，估计“anchor word”字段的平均值来标准化特征向量，从中突出低频部分相对于“anchor word”的差异。

另一种方法则是使用编码器-解码器网络，通过应用常规对数幅度因果平均值减法来归一化该网络的特征。

这两种方法实验结果表明：在具有常规归一化特征的基线前馈网络中，可以实现分类误差率大约10％的相对降低。

总的来看，Amazon开始尝试解决“鸡尾酒会问题”。然而，虽然Amzon不断更新其麦克风阵列算法，并在深度学习方面进行大量调整，但是Alexa目前还是无法做到在同一个方向多人说话的情况下，准确的判断识别到底是谁在说话。特别是对于Alexa采用基于能量搜索唤醒的算法模式，非常容易受到周围环境的干扰，导致噪杂环境下的唤醒失败。

虽然到目前为止，“鸡尾酒会问题”还没有得到满意的解答。但是随着新器件和新技术的应用，以及越多越多的学者参与研究，相信“鸡尾酒会问题”得到解决，不会等待太久时间。

雷锋网

雷锋网版权文章，未经授权禁止转载。详情见。

亚马逊Alexa真的解决了“鸡尾酒派对”难题吗？

推荐阅读

搜索
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
搜索
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
less
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
less
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
less
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
less
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
less
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
less
深入解析国内AEB应用：摄像头和毫米波雷达融合技术的现状与前景

本文作者程建伟，武汉极目智能技术有限公司CEO，入选武汉市“光谷3551人才计划”。文章详细探讨了国内自动紧急制动（AEB）系统中摄像头与毫米波雷达融合技术的现状及未来前景。通过分析当前技术的应用情况、存在的挑战以及潜在的解决方案，作者指出，随着传感器技术的不断进步和算法优化，AEB系统的性能将大幅提升，为交通安全带来显著改善。 ... [详细]

蜡笔小新 2024-11-11 17:31:27
less
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
select
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
select
射频领域博士学位：信号处理算法在射频技术中的职业前景如何？

射频领域的博士学位在信号处理算法方面具有广阔的职业前景，尤其是在射频技术的应用中。例如，加入华为的射频基站部门，从事数字预失真等关键技术的研发工作。在此过程中，需要注意持续跟踪最新的学术和技术进展，保持对行业动态的敏感性，并不断提升自身的实践能力和创新能力。此外，除了技术层面，还应关注行业的整体发展趋势，以便更好地规划职业生涯。 ... [详细]

蜡笔小新 2024-11-02 18:41:10
input
吴恩达深度学习课程笔记：第一部分第三周——浅层神经网络详解

浅层神经网络解析：本文详细探讨了两层神经网络（即一个输入层、一个隐藏层和一个输出层）的结构与工作原理。通过吴恩达教授的课程，读者将深入了解浅层神经网络的基本概念、参数初始化方法以及前向传播和反向传播的具体实现步骤。此外，文章还介绍了如何利用这些基础知识解决实际问题，并提供了丰富的实例和代码示例。 ... [详细]

蜡笔小新 2024-11-02 12:20:03
input
理工科男女不容错过的神奇资源网站

十一长假即将结束，你的假期学习计划进展如何？无论你是在家中、思念家乡，还是身处异国他乡，理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档，能够帮助你在假期中高效学习和提升专业技能。 ... [详细]

蜡笔小新 2024-11-01 11:51:44
input
超分辨率技术的全球研究进展与应用现状综述

本文综述了图像超分辨率（Super-Resolution, SR）技术在全球范围内的最新研究进展及其应用现状。超分辨率技术旨在从单幅或多幅低分辨率（Low-Resolution, LR）图像中恢复出高质量的高分辨率（High-Resolution, HR）图像。该技术在遥感、医疗成像、视频处理等多个领域展现出广泛的应用前景。文章详细分析了当前主流的超分辨率算法，包括基于传统方法和深度学习的方法，并探讨了其在实际应用中的优缺点及未来发展方向。 ... [详细]

蜡笔小新 2024-10-31 15:10:48
object
MySQL：不仅仅是数据库那么简单

MySQL不仅是一款高效、可靠的数据库管理系统，它还具备丰富的功能和扩展性，支持多种存储引擎，适用于各种应用场景。从简单的网站开发到复杂的企业级应用，MySQL都能提供强大的数据管理和优化能力，满足不同用户的需求。其开源特性也促进了社区的活跃发展，为技术进步提供了持续动力。 ... [详细]

蜡笔小新 2024-10-30 14:11:13

手机用户2502856203

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有