热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

人类想听懂动物的语言,AI还需克服哪些困难

文|王伊诗,来源|智能相对论(aixdlun)近日,有一个视频在养宠圈中广泛流传,引无数养宠人士潸然泪下。视频的主角是动物行为专家HeidiWright和一只生命即将走到尽头的导盲犬,Hei

  文|王伊诗,来源|智能相对论(aixdlun)

  近日,有一个视频在养宠圈中广泛流传,引无数养宠人士潸然泪下。视频的主角是动物行为专家HeidiWright和一只生命即将走到尽头的导盲犬,HeidiWright以她的能力为媒介,将导盲犬的肢体动作和声音翻译成人语,帮助它和主人进行最后的交流。在HeidiWright的转述中,导盲犬表示了无法继续守护主人的惋惜,还不停地呼叫另一只狗伙伴,让它照顾好主人。

  

  这段视频在引发人们感动的同时,也让许多人止不住地遗憾,很多家庭都养有宠物,这些宠物陪伴了主人十数年,早已经超越了传统意义上宠物的范畴,成为了特殊的家庭成员。可是绝大部分人都无法像上文提及的主人那般幸运,能够倾听到狗狗的心声,在这名“亲人”辞世时也只能抱憾相送。

  无数人曾设想过,是否有可能出现一种翻译工具,能够将宠物的语言转换为人语呢?

  人宠语言互译并非伪命题,十年内或可“美梦成真“

  美国资深动物行为专家康·斯洛波奇科夫(ConSlobodchikoff)教授称,未来五至十年内,人类使用一种手机大小的装置——宠物翻译器,便能与动物进行“对话”。这位北亚利桑那大学的生物教授花了30年研究草原土拨鼠的行为,他用AI软件记录并分析草原土拨鼠的叫声,将其翻译成英语,发现这些草原上的小家伙们“具有语言所有方面的复杂通信系统”。而目前,他正试图筹集资金来开发猫和狗的语音翻译设备。

  在这条未知明暗的道路上探索的显然不止他一人。天下熙熙皆为利来,天下攘攘皆为利往,其实“宠物翻译器”的低配版早就被放上了淘宝,取得了可观的销量,卖家声称这个设备经实测翻译准确率高达80%。纵览评论,“好玩”、“有意思”、“灵气”之类的好评不在少数,从中我们也可以窥知消费者对于宠物翻译器的需求与肯定。

  4S营销理论下,仅做到趣味性的满足显然不够,在宠物翻译这块才刚刚开掘的沃土已吸引了无数“赏金猎人”的眼光。如果按斯洛波奇科夫教授所说的,这项技术能在十年内成为现实,小范围满足的是人与宠物的交流沟通,大范围可能是人类一统动物世界的温和策略与梦想。

  自动语音识别技术和语音翻译技术助力,宠物情绪传达不再是镜中花、水中月

  低配版宠物翻译器运用的技术原理就是对狗狗的叫声、动作等生物信号进行采样,对获取的数据进行频谱分析,对姿势动作DSP运算数字化处理,把得到的翻译语言以中文形式语音播报出来,但是由于采样的范围和机器内存等的局限性,这种低配宠物翻译器在翻译的准确度和丰富性方面尚有待提高。

  相较之下,为实现人狗沟通而设计的“NoMoreWoof”耳机要更胜一筹。

  过去几年,AI领域的进步带来了自动语音识别技术和语音翻译技术的显著改进,计算机算法已经可以通过对大量数据进行的学习和训练来解释语言,而不是通过一组死板规则进行预编程。“NoMoreWoof“是由北欧发明与发现协会(NCID)开发的,应用的是三个不同技术领域的最新技术的组合,即脑电图(EEG)传感、微计算和专用脑-机接口(BCI)软件,主要由脑电图耳机、RaspberryPi处理器和一款便携音箱组成。这些传感器是脑电图记录器,可以降低读数,减少离子电流在狗脑中的电压波动。然后由微型计算机拾取波动,在这种情况下形成一个覆盆子pi,并对它们作出解释。

  

  例如,大脑中有一种特定的电信号来定义疲劳感,还有一些最容易被发现的神经模式:“我饿了”,“我累了”,“我很好奇那是谁?”,“我想尿尿”……耳机中的传感器会捕捉这种特殊的电信号,并将它们转化为人们能够听懂的语言。

  再结合基础的自动语音识别技术和语音翻译技术,计算机算法可以大致地分辨出宠物的情绪,这是短时间内宠物语言翻译能达到的制高点,至于要通过宠物翻译器来了解动物伙伴们真正的内心世界,还期待人类进一步的大动作。

  精确翻译之路仍山高水远,AI还需克服哪些困难

  需要指出的是,动物的大脑并不如人类的大脑复杂,人脑的活动通常有一个明确的目标导向,动物的大脑却不一定,人的各种语言之间的转换也具有相对窄范围的对应关系,而动物的语言与人类的语言则对应范围很宽,比如,狗会发出急促的叫声,可能是因为想要向主人乞食,也可能是因为警惕陌生人,还可能是对主人不陪自己玩的责怪。如果它想表达的是这一种,而AI的翻译器却传达为另一种,那么就容易将人和宠物之间的沟通引入“歧途”,从而完全丧失了宠语翻译的意义了。

  那么有没有可能通过AI实现完全精准的宠物语言翻译呢?任重而道远。通过自动语音识别技术和语音翻译技术,计算机算法可以大致地分辨出宠物的情绪,但要明确更深层次的宠物肢体动作和叫声的内在意图,AI还需要一场“扭转乾坤”的大革命。在这方面,我们可以联想AI在同声传译上的表现,之前,很多媒体搞起了“Ai会取代哪些工作岗位”的预测,笔译、口译在许多预测中被认为被取代率高居榜首,这并非空穴来风,AI翻译不可谓不是当今AI领域的一个热点,搜狗,谷歌,Facebook,网易等都削尖了脑袋想要分一杯羹,卯足了劲儿想要成为这一领域的领头羊,毕竟人工翻译领域人工成本高居不下,如果能用AI解决高成本问题,无疑劫走其中大部分的红利。

  然而,就目前来看,AI翻译并没有完全取代人工翻译。相比于对其他事物的了解,人更了解人自身,而针对人自身语言所进行的AI翻译尚且前路未朗,AI又如何在宠物翻译领域崭露头角呢?在智能相对论(微信id:aixdlun)看来,AI在宠物语言翻译方面的应用,还需要填平这些“代沟”:

  1.数据关,成风尽垩之技无的放矢。要明确动物语言所表达的具体意义,需要先对动物的叫声和即时脑电波动进行完整的采样比对,再在这些数据的基础上建立数据库。而这两种数据都存在着广泛性和多样性,以犬类为例,不同的犬种声带粗细宽窄各不相同,针对同一情景发出的叫声分贝高低和尖细情况也不同,而刺激犬类发出叫声的场景又是难以穷尽的,单单收集犬类的声音样本就是一个无比巨大的工程了,数据库自然也难以完善。

  2.技术关,空手搏斗难制胜。一个AI翻译产品做到翻译精确至少需要攻破几个难题:形式端,拍译要攻克图像识别,同声翻译要攻克语音识别:内容端,攻克文本语言分析、大数据。而AI还没有发展到能够极为精确地处理这些问题的阶段,机器缺乏对视觉场景、听觉场景、自然语言处理的常识判断。

  如搜狗搜索在2017年6月的分享会上发布了创新产品搜狗翻译APP,应用了基于生物学习的神经网络机器翻译(NMT)系统,将翻译精确度提升到一个前所未有的高水准,然而在翻译效果的“信达雅”上,仍然只做到了“信”的层面,对语言背后的幽默、情感等丰富含义的解读离人们所期待的水准还有些距离。

  3.语义关,语料积累、场景收集和副语言与文化背景成痛痒之地。AI翻译在文本或语言的寓意分析方面还强差人意。与人类语言相比,动物语言都是即时信号,信息内容全部关于当下,或示威,或示警,或示爱……从中看不到用语言来激起对过去的联想的迹象,并且单个个体能发出的声音形式太单一了,蕴含在其中的丰富信息难以明确表达。

  宠物翻译的难点不仅在于声音的收集,更在于声音背后具体含义的对应。这种对应是宽范围的,难以精确的,机器缺乏对视觉场景、听觉场景、自然语言处理的常识判断,无法精确理解语音所表达的内涵,甚至在这个方面还比不上人类对动物语言的理解,人可以根据生活经验来理解动物语言,比如看到狗狗冲着陌生人吠叫,人们可以推测它是在防备这个陌生人,而机器可能就没办法很好地理解这个画面,从而做出错误的判断。

  又比如,“好”这个字是日常交际的常用字,在百度汉语显示有19种语义,这些语义是结合具体场景来体现的,当偶遇熟人时,“好”的意思是问好;当别人征求意见时,“好”用来表示同意;当人们商讨时,又可以用“好”来表示反问……可见场景对于语义具有至关重要的影响,机器的正确理解场景的这件事上还需要加油,从而提高语义翻译上的高精确性。

  4.“历史包袱”难抖掉,AI难以跟上生命体的学习进程。狗的叫声在一定历史时期并不是一成不变的,狗凭借自身的灵性以及主人的后天驯养,具备有学习能力,例如狗类中智商排名第一的边境牧羊犬智力水平已经相当于6—8岁的小孩,经过学习,在放牧时它会用不同的叫声来驱使羊群,控制羊群走向。还有一些宠物狗,甚至会在人类的刻意训练下发出类似“妈妈”的叫声,宠物语言在日新月异的变化,计算机却很难抖掉语言的“历史包袱”,这些也造成了AI宠物翻译的困境。

  动物语言和人语之间的代沟是客观存在的,AI所能做的,只能是不断改进自身的功能,用科学手段完善数据库、内容、语料和场景,形式和内容双管齐下,才能将这条横亘在动物语言和人语之间的代沟填平,在坚实的地基上建立起实现人和动物“有效沟通”的“巴别塔”。

  智能相对论(微信id:aixdlun):深挖人工智能这口井,评出咸淡,讲出黑白,道出深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。


2018-01-24 · 36氪


推荐阅读
  • 构建基于BERT的中文NL2SQL模型:一个简明的基准
    本文探讨了将自然语言转换为SQL语句(NL2SQL)的任务,这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践,该比赛提供了金融和通用领域的表格数据,并标注了对应的自然语言与SQL语句对,旨在训练准确的NL2SQL模型。 ... [详细]
  • Navicat Premium 15 安装指南及数据库连接配置
    本文详细介绍 Navicat Premium 15 的安装步骤及其对多种数据库(如 MySQL 和 Oracle)的支持,帮助用户顺利完成软件的安装与激活。 ... [详细]
  • 本文总结了2018年的关键成就,包括职业变动、购车、考取驾照等重要事件,并分享了读书、工作、家庭和朋友方面的感悟。同时,展望2019年,制定了健康、软实力提升和技术学习的具体目标。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 在计算机技术的学习道路上,51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域,51CTO学院始终是我信赖的学习平台。 ... [详细]
  • CSS 布局:液态三栏混合宽度布局
    本文介绍了如何使用 CSS 实现液态的三栏布局,其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性,可以实现灵活且响应式的网页设计。 ... [详细]
  • IT项目管理过程中的方法、工具、技术
    工欲善其事,必先利其器。而对于一个软件开发项目,最重要的器就是方法,工具和技术。而这三要素中重要的又是方法论,方法是基础&# ... [详细]
  • Linux 系统启动故障排除指南:MBR 和 GRUB 问题
    本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案,涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]
  • 本文介绍了如何使用jQuery根据元素的类型(如复选框)和标签名(如段落)来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 本文介绍如何在 Xcode 中使用快捷键和菜单命令对多行代码进行缩进,包括右缩进和左缩进的具体操作方法。 ... [详细]
  • 精选30本C# ASP.NET SQL中文PDF电子书合集
    欢迎订阅我们的技术博客,获取更多关于C#、ASP.NET和SQL的最新资讯和资源。 ... [详细]
author-avatar
小嘿嘿
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有