热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据交互什么意思_语音交互有哪些优势与劣势?

转载自公众号【谈人工智能】,转载请联系授权语音交互是指人与人、人与设备之间,通过自然语音进行信息传递的过程。人与人之间通过语音来传递信息、交流感情等等&
8781e60f9b591dbd045cd2b3ce5ec422.png
转载自公众号【谈人工智能】,转载请联系授权

语音交互是指人与人、人与设备之间,通过自然语音进行信息传递的过程。人与人之间通过语音来传递信息、交流感情等等,其实就是一种最基本的人与人之间的语音交互。

为什么VUI这个概念(Voice User Interface)在最近几年又变得的火起来了呢?因为人们发现除了人与人之间可以通过语音来交互之外,已经可以慢慢地对一些智能设备(如手机、智能音箱、车载系统等),通过语音进行交互下达指令或者获得反馈等,所以现在的语音交互的概念已经不仅仅局限于人与人之间了。

尤其是对语音行业的研究来讲,我们的注意力更主要的是集中在人机交互上,所以很多时候VUI这个概念就是特指人机语音交互。

a8532aae2ae67a47a93ca12db308e795.png

那么,为什么我们要探讨人机语音交互呢?是因为语音交互本身独有的优势,我把它总结为这样四点的优势

一、语音的输入效率比较高

相比于传统的键盘输入、文字输入,语音输入的速度,语音输入的效率至少是传统输入方式的三倍以上,这个是在百度开放平台上做过的一个数据统计。

输入效率高,体现在以下几个方面:

1、通过语音去检索信息的效率会比较高,尤其是针对复杂的query

在这种输入方式不变的场景下,通过语音的交互效率会更高,比如说当我在家里看电影的时候,我可以直接对着电视机说出我要看的电视节目或者是电影名称。这种交互来讲,通过语音的方式,直接下达指令会更方便。

2、语音交互可以跨空间,对于跨空间的交互方式更加便捷

跨空间的含义,我们可以简单地理解为远距离的语音交互,这里的一般称之为远场语音交互或者是远讲,远场的意思是说我的说话人距离我的设备的麦克风的距离要比较远,一般来讲至少是1米以上,很多时候是3到5米,甚至是更远。

在这种跨空间的场景下,一般传统意义上的文字交互,很多时候是不可能操作的。比如,当距离智能音箱(手机)比较远的时候,不可能通过文字的方式去进行交互,所以在这种场景下,语音交互就显得更加必要、高效。

3、语音支持组合指令输出

即我们发出语音指令的时候,可以一次性的下达多条指令,然后由机器识别之后,分别去执行这些指令的意图。

举一个例子,以家居的场景为例,我要看一部电影,其实可以对我的电视机这样说:“播放周星驰的电影、电影要四星以上,并且都是免费观看的”。这样一句话当中,蕴含了多个层次的含义。

这样的话,通过语音,一句话就可以把我的多层次的指令通过组合的方式一起来下达,并且智能机器会通过解析我的指令含义,去依次调用相应的skill来满足我的指令的下达方式。

这些就是语音输入方式比传统输入方式效率高的原因。

二、解放双手和双眼,更安全

其实谈到解放双手,我们马上会想到车载场景。其实对于车载场景来讲,我们是绝对不可能在车上一边开车一边通过手机用手敲汉字的方式进行交互的,这个也是绝对不允许的。在车载场景里,如果你想设置导航、听音乐、听广播,也是必须要用语言来进行交互的。而在现在很多的汽车上,其实也都已经内置了车载语音交互的功能。

除了车载场景之外,还有其他的场景,比如说医疗场景:医生在跟病人或者病人家属沟通病情时,他可能同时双手还要去操作各种各样的复杂的医疗设备,那这时候,如果医生需要记录病历,通过语音的方式来做就是一个比较必要的一种方式了。

三、使用门槛低

其实我们每个人都有经验,我们人与人之间的交互,最早本来就是用语言进行交互的。一个还不会写字的小孩子在慢慢长大的过程当中,与父母与其他的朋友之间的交互,都是通过语音来进行的,这是一个我们人类天然就具备的交互能力。

尤其对于小孩子、一些老人、一些有视觉障碍的人群,他们更是没有办法通过文字的方式来进行交互,所以语音交互的方式会为这些人带来非常大的便利。此外,语音交互的学习成本比较低,它的交互方式更加自然,所以它的上手成本也比较低。

四、可以传递更多的声学信息

我们知道,一段语音不仅仅包含这段语音所承载的内容信息,还包括其他的信息,比如声纹信息、身份信息、性别信息(说这段话的人的是男是女)、年龄信息、情感信息(指的是人在说这段话的时候他的感情是怎么样的,它是生气的还是高兴的还是悲伤的)等等。

这些信息都可以通过一段语音信号借助各种技术把它解析出来。那么相比于传统文字的这种干巴巴的交互方式来讲,语音它能够传递的信息会更多。

bae3299278770a5a62fa9be816c762f0.png

这些就是语音交互的几点优势。但是,对于一种交互方式,尤其是人机语音交互这样一种新型的交互方式,自然也有一些劣势

一、接收效率比较低

在刚刚的分析中,我们一直是集中在语音输入的方式。而对于信息的接收,我们则是从输出的角度来讲的。语音的输出其实是一个线性的输出。

什么意思呢?也就是说当你在听别人说一段话的时候,你很有可能需要等到对方把这句话全部说完以后,或者是说完大部分以后,才能够理解对方想说的话是什么意思。

文字交互则不太一样。当我们在看一段文字的时候,我们很可能会跳过一些没有意义的文字,去直接掌握这段话的全局意思。可能大家会有这样的体验,在用微信的时候,相对于收到的语音消息,更愿意阅读一些文字的消息。

因为看一段文字,我们可以直接的很快速的去掌握这段文字的中心内容,而如果我要去听一段语音的话,那我必须要把这段语音从头到尾的完整的听完,我才能知道对方写了讲的是什么。所以这一点上,我们说语音输出是一个线性的输出,对于信息接收者来说,它的效率是比较低的。

二、环境复杂

我们面临的各种各样复杂的生活环境,这一点也是语音信号处理课程所要着重解决的一个问题。

我们每天都被各种复杂的环境所包围。这些环境里可能会包含着各种各样我们不需要或者是不想听到的声音。

当这些声音与我们想要听的那些声音交叠在一起的时候,就会对我们的交互体验产生非常大的影响,所以复杂的声学环境是我们在设计人机语音交互系统时,所必须考虑的一个问题。

三、用户的心理负担

这一点,也是对于语音交互设计者来说最难把握的一点。因为用户在实际使用这个人机交互系统的时候,他的很多行为往往是我们没有办法事先预期的。

对于同一个交互场景,不同人的交互方式很有可能会不一样。从用户的心理体验来说,可能会有一部分人的人机语音交互的习惯还没有培养起来,也可能会有一些人,他不太愿意对着机器去通过语音来说话,尤其是身处在一个比较开放的需要顾及个人隐私的场景的时候更是如此。

267ec239304546d2b9d3fe52ebf8cf98.png

通过以上的内容,我们可以了解到语音交互的本身是有它的优势的,当然也有它不足的地方,而不足的地方正是需要我们去着重解决的一些问题。

特别感谢

本文整理自深蓝学院《语音信号处理》课程,感谢宋辉老师的细心讲解,以及深蓝学院提供的优质课程,再次感谢!

语音信号处理 - 深蓝学院 - 专注人工智能的在线教育​www.shenlanxueyuan.com
e720443409701c1b231d1a51c8e64a05.png



推荐阅读
  • Swoole加密机制的安全性分析与破解可能性探讨
    本文深入分析了Swoole框架的加密机制,探讨了其在实际应用中的安全性,并评估了潜在的破解可能性。研究结果表明,尽管Swoole的加密算法在大多数情况下能够提供有效的安全保护,但在特定场景下仍存在被攻击的风险。文章还提出了一些改进措施,以增强系统的整体安全性。 ... [详细]
  • 在Linux系统中,网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制,并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址(需要安装`iproute`包),当网卡未分配IP地址或处于关闭状态时,可以通过`ip link set`命令进行配置和激活。此外,文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理,为系统管理员提供了实用的操作指南。 ... [详细]
  • 作为软件工程专业的学生,我深知课堂上教师讲解速度之快,很多时候需要课后自行消化和巩固。因此,撰写这篇Java Web开发入门教程,旨在帮助初学者更好地理解和掌握基础知识。通过详细记录学习过程,希望能为更多像我一样在基础方面还有待提升的学员提供有益的参考。 ... [详细]
  • MySQL 函数调用性能优化策略与实践
    MySQL函数调用的性能优化是提升数据库整体效率的关键。本文探讨了MySQL中函数的确定性和不确定性分类,以及如何通过优化这些函数调用来提高查询性能。确定性函数在给定相同输入时始终返回相同的结果,而非确定性函数则可能因环境或时间等因素而返回不同的结果。文章详细介绍了识别和优化非确定性函数的方法,以减少对数据库性能的影响,并提供了实际应用中的案例分析。 ... [详细]
  • 微信平台通过盛派SDK(sdk.weixin.senparc.com)允许服务号和订阅号使用appId和token读取关注用户的个人信息。然而,这一过程需严格遵守隐私保护和数据安全的相关规定,确保用户数据的安全性和隐私性。 ... [详细]
  • 移动搜索格局已定,切勿误解微信搜索的真正实力
    近期,微信新版本的内测界面曝光,新增了朋友圈搜索和附近商户搜索功能。种种迹象显示,微信正不断强化其搜索能力。尽管移动搜索市场格局已基本稳定,但不应低估微信搜索的潜力。微信不仅在聊天工具、移动浏览器和新闻阅读等领域持续发力,还在通过搜索功能进一步巩固其在移动互联网领域的地位。 ... [详细]
  • 步入人工智能新时代,掌握这些关键知识点至关重要。AI技术将成为人类的重要辅助工具,不仅能够扩展和增强人类的智能,还能帮助我们实现更加卓越的成就。新一代人工智能技术的发展将为各行各业带来深远的影响,推动社会进步与创新。 ... [详细]
  • 利用Python进行航空公司数据的数据挖掘与预处理
    本文根据航空公司系统的客户基本信息数据(文末提供数据和代码),使用Python分别完成数据清洗、数据集成和数据可视化的操作,并给出了完整代码及图文说明,感兴趣的朋友可以 ... [详细]
  • OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战
    OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战 ... [详细]
  • 百度飞桨图像分割课程笔记14:全景分割技术详解——PanopticDeepLab(CVPR 2019)
    Panoptic-DeepLab 是一种自底向上的全景分割方法,无需预先进行目标检测。该模型在 CVPR 2019 上提出,以其简洁、强大且快速的特点成为全景分割任务的基准。通过高效地结合实例分割和语义分割,Panoptic-DeepLab 能够准确地识别和区分图像中的每个对象和背景区域,为复杂的场景提供全面的分割结果。 ... [详细]
  • 如何在PHP中准确获取服务器IP地址?
    如何在PHP中准确获取服务器IP地址? ... [详细]
  • 2015年,互联网企业人人网在产品岗位的招聘中,设置了多项笔试题目,旨在全面考察应聘者的专业能力和综合素质。本文对这些题目进行了详细解析,并提供了备考指南,帮助考生更好地准备考试。内容涵盖填空题、选择题等多种题型,重点解析了如性别偏好等社会现象的应用题,为考生提供全面的参考和指导。 ... [详细]
  • 在处理 XML 数据时,如果需要解析 `` 标签的内容,可以采用 Pull 解析方法。Pull 解析是一种高效的 XML 解析方式,适用于流式数据处理。具体实现中,可以通过 Java 的 `XmlPullParser` 或其他类似的库来逐步读取和解析 XML 文档中的 `` 元素。这样不仅能够提高解析效率,还能减少内存占用。本文将详细介绍如何使用 Pull 解析方法来提取 `` 标签的内容,并提供一个示例代码,帮助开发者快速解决问题。 ... [详细]
  • 中本聪的足球队,香吗?
    作者|佩奇出品|区块链大本营(blockchain_camp)他想组建世界上第一支「区块链足球队」,但8个月后,他仍没有兑现 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
author-avatar
vijay
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有