转载自公众号【谈人工智能】,转载请联系授权
语音交互是指人与人、人与设备之间,通过自然语音进行信息传递的过程。人与人之间通过语音来传递信息、交流感情等等,其实就是一种最基本的人与人之间的语音交互。
为什么VUI这个概念(Voice User Interface)在最近几年又变得的火起来了呢?因为人们发现除了人与人之间可以通过语音来交互之外,已经可以慢慢地对一些智能设备(如手机、智能音箱、车载系统等),通过语音进行交互下达指令或者获得反馈等,所以现在的语音交互的概念已经不仅仅局限于人与人之间了。
尤其是对语音行业的研究来讲,我们的注意力更主要的是集中在人机交互上,所以很多时候VUI这个概念就是特指人机语音交互。
那么,为什么我们要探讨人机语音交互呢?是因为语音交互本身独有的优势,我把它总结为这样四点的优势
一、语音的输入效率比较高
相比于传统的键盘输入、文字输入,语音输入的速度,语音输入的效率至少是传统输入方式的三倍以上,这个是在百度开放平台上做过的一个数据统计。
输入效率高,体现在以下几个方面:
1、通过语音去检索信息的效率会比较高,尤其是针对复杂的query
在这种输入方式不变的场景下,通过语音的交互效率会更高,比如说当我在家里看电影的时候,我可以直接对着电视机说出我要看的电视节目或者是电影名称。这种交互来讲,通过语音的方式,直接下达指令会更方便。
2、语音交互可以跨空间,对于跨空间的交互方式更加便捷
跨空间的含义,我们可以简单地理解为远距离的语音交互,这里的一般称之为远场语音交互或者是远讲,远场的意思是说我的说话人距离我的设备的麦克风的距离要比较远,一般来讲至少是1米以上,很多时候是3到5米,甚至是更远。
在这种跨空间的场景下,一般传统意义上的文字交互,很多时候是不可能操作的。比如,当距离智能音箱(手机)比较远的时候,不可能通过文字的方式去进行交互,所以在这种场景下,语音交互就显得更加必要、高效。
3、语音支持组合指令输出
即我们发出语音指令的时候,可以一次性的下达多条指令,然后由机器识别之后,分别去执行这些指令的意图。
举一个例子,以家居的场景为例,我要看一部电影,其实可以对我的电视机这样说:“播放周星驰的电影、电影要四星以上,并且都是免费观看的”。这样一句话当中,蕴含了多个层次的含义。
这样的话,通过语音,一句话就可以把我的多层次的指令通过组合的方式一起来下达,并且智能机器会通过解析我的指令含义,去依次调用相应的skill来满足我的指令的下达方式。
这些就是语音输入方式比传统输入方式效率高的原因。
二、解放双手和双眼,更安全
其实谈到解放双手,我们马上会想到车载场景。其实对于车载场景来讲,我们是绝对不可能在车上一边开车一边通过手机用手敲汉字的方式进行交互的,这个也是绝对不允许的。在车载场景里,如果你想设置导航、听音乐、听广播,也是必须要用语言来进行交互的。而在现在很多的汽车上,其实也都已经内置了车载语音交互的功能。
除了车载场景之外,还有其他的场景,比如说医疗场景:医生在跟病人或者病人家属沟通病情时,他可能同时双手还要去操作各种各样的复杂的医疗设备,那这时候,如果医生需要记录病历,通过语音的方式来做就是一个比较必要的一种方式了。
三、使用门槛低
其实我们每个人都有经验,我们人与人之间的交互,最早本来就是用语言进行交互的。一个还不会写字的小孩子在慢慢长大的过程当中,与父母与其他的朋友之间的交互,都是通过语音来进行的,这是一个我们人类天然就具备的交互能力。
尤其对于小孩子、一些老人、一些有视觉障碍的人群,他们更是没有办法通过文字的方式来进行交互,所以语音交互的方式会为这些人带来非常大的便利。此外,语音交互的学习成本比较低,它的交互方式更加自然,所以它的上手成本也比较低。
四、可以传递更多的声学信息
我们知道,一段语音不仅仅包含这段语音所承载的内容信息,还包括其他的信息,比如声纹信息、身份信息、性别信息(说这段话的人的是男是女)、年龄信息、情感信息(指的是人在说这段话的时候他的感情是怎么样的,它是生气的还是高兴的还是悲伤的)等等。
这些信息都可以通过一段语音信号借助各种技术把它解析出来。那么相比于传统文字的这种干巴巴的交互方式来讲,语音它能够传递的信息会更多。
这些就是语音交互的几点优势。但是,对于一种交互方式,尤其是人机语音交互这样一种新型的交互方式,自然也有一些劣势
一、接收效率比较低
在刚刚的分析中,我们一直是集中在语音输入的方式。而对于信息的接收,我们则是从输出的角度来讲的。语音的输出其实是一个线性的输出。
什么意思呢?也就是说当你在听别人说一段话的时候,你很有可能需要等到对方把这句话全部说完以后,或者是说完大部分以后,才能够理解对方想说的话是什么意思。
文字交互则不太一样。当我们在看一段文字的时候,我们很可能会跳过一些没有意义的文字,去直接掌握这段话的全局意思。可能大家会有这样的体验,在用微信的时候,相对于收到的语音消息,更愿意阅读一些文字的消息。
因为看一段文字,我们可以直接的很快速的去掌握这段文字的中心内容,而如果我要去听一段语音的话,那我必须要把这段语音从头到尾的完整的听完,我才能知道对方写了讲的是什么。所以这一点上,我们说语音输出是一个线性的输出,对于信息接收者来说,它的效率是比较低的。
二、环境复杂
我们面临的各种各样复杂的生活环境,这一点也是语音信号处理课程所要着重解决的一个问题。
我们每天都被各种复杂的环境所包围。这些环境里可能会包含着各种各样我们不需要或者是不想听到的声音。
当这些声音与我们想要听的那些声音交叠在一起的时候,就会对我们的交互体验产生非常大的影响,所以复杂的声学环境是我们在设计人机语音交互系统时,所必须考虑的一个问题。
三、用户的心理负担
这一点,也是对于语音交互设计者来说最难把握的一点。因为用户在实际使用这个人机交互系统的时候,他的很多行为往往是我们没有办法事先预期的。
对于同一个交互场景,不同人的交互方式很有可能会不一样。从用户的心理体验来说,可能会有一部分人的人机语音交互的习惯还没有培养起来,也可能会有一些人,他不太愿意对着机器去通过语音来说话,尤其是身处在一个比较开放的需要顾及个人隐私的场景的时候更是如此。
通过以上的内容,我们可以了解到语音交互的本身是有它的优势的,当然也有它不足的地方,而不足的地方正是需要我们去着重解决的一些问题。
特别感谢
本文整理自深蓝学院《语音信号处理》课程,感谢宋辉老师的细心讲解,以及深蓝学院提供的优质课程,再次感谢!
语音信号处理 - 深蓝学院 - 专注人工智能的在线教育www.shenlanxueyuan.com