热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

全球首推语音定制产品,百度地图背后的语音技术到底有多强大?

文|李永华来源|智能相对论(aixdlun)地图APP的竞争日趋激烈,但往往都是你来我往,各大产品互有来回。但现在&#

文|李永华

来源|智能相对论(aixdlun)

地图APP的竞争日趋激烈,但往往都是你来我往,各大产品互有来回。

但现在,一些基于AI技术的颠覆性创意功能正在冒出,它们将成为竞争“杀招”,很可能一招制胜,让战况不再胶着。

你可能经常使用XX明星的声音作为手机地图的提示音,但你可能没有想到,有一天“前面路口左转”这样的发音准确、播音员级别的语音播报,会通过“你的声音”发出来。

近日,百度地图推出“语音定制功能”,简而言之,用户通过手机就能自主录制与合成个人完整语音包,可以同步应用到地图全端语音场景,如驾车导航、语音交互、智能旅游等。

从技术角度看,如果了解为每个人进行“语音定制”的技术难度的话,就知道百度先发制人推出的“语音定制功能”,或已经让行业对手“无计可施”。这背后是百度大脑语音能力的强力加持,是深厚技术积淀的产物。

毫无疑问,百度地图出的这一招,已经没有人能够在短时间内接得起。

而从整个行业角度看,语音定制功能的加入,也让“AI+地图”组合的 “完全体”获得了进一步进化、升级。

百度地图事业部总经理李莹

盘点语音合成:百度地图AI实力成为竞争“杀招”

百度地图此次推出的语音定制功能,依赖的技术即百度语音独创的风格迁移技术MEITRON模型。

该技术实际上已经“露过脸”,大型公益节目《等着我》有一期讲述了91岁老兵袁林昌寻找老排长的故事,老排长2004年即已去世,但技术团队采集老排长的语音素材,利用MEITRON对音色、情感、风格等进行独立的编码建模,最终合成了老排长声音发出的句子,让老兵袁林昌与观众感动落泪。

智能相对论认为,同样作为AI语音合成技术,MEITRON价值和优势在于三个方面:

素材要求低,一般仅需提供20句话的素材,在百度地图上,用户仅需跟随录制20句、每句15个字左右的语句即完成数据采集;

训练时间短,在百度地图上,一般仅需20分钟即可完成训练(实测往往15分钟即可完成),合成个性化的目标声音,用户无需漫长等待;

“情感”丰富,即合成的语音可以注入不同的情感,效果变得更加逼真、丰富,就好像是某个人真的在说一样。

直接说这些优势可能大家没有直观感受,当我们盘点和回顾语音合成的发展史,就会发现MEITRON这些卓有成效的能力对整个语音合成领域的重要价值。在它的加持下,百度地图的语音定制场景应用直接摘取了“目标声音个性化”这颗皇冠明珠,让竞争对手不得不摆手放弃追赶。

1、大面上,AI已经解决语音合成的几个基本问题

事实上,在MEITRON之前,AI深度介入语音合成领域,已经解决了行业的三大基本痛点问题:

韵律问题:可理解为符合正常人聊天语态,例如句子的停顿,重读等要求,计算机过去往往比较机械,听起来不自然,例如,过去合成“你真好看”四字简单的句子,可能读成“你真/好看”等,现在AI可以实现“你/真好看”相对正确的短句和顿挫,或者如普通人一样还能在“真”字上加上重音;

音色拟合问题:即不只有一个单调的女声,还可以拟合其他想要的种类的声音;

情感拟人问题:即说出的话有不同的“调调”,个人风格浓厚,而不是冰冷的、无情感的输出。

2、AI长时间难以解决“目标声音个性化”问题,MEITRON出手

但是,AI解决的语音合成三大基本问题,只是在“商用层面”,尚不能到达“民用层面”。

形象地理解,过去几乎所有的地图产品都能针对一个特定的“目标声音”进行采集和训练,实现有韵律、有音色、有情感,百度地图的汤唯、杨洋、郭采洁、韩乔生、柳岩,高德地图的郭德纲、林志玲等,都是如此。

早期这种“商用采集”的特点是“目标声音”的提供者,需要配合进行大量的采集工作,并等待十天半个月甚至更长时间的合成,才能生成我们在地图APP里熟悉的明星语音包。如果面向海量的普通用户,这种成本平台无法承受,用户也很难谈得上有什么体验。

所以,地图产品的语音包早期只能一个一个来,只在商用层面无法抵达“民用”。

而问题恰恰又在于,AI浪潮下,所有面向大众的产品都在谈个性化,地图产品概莫能外。个性化需求只要生根就会发芽、长大,在AI语音合成的支持下,有了不同的明星语音包,越来越多的用户潜在也会有的更为个性化的语音需求,谁能激发和实现这种需求,谁就赢得了无法追赶的竞争优势。

将目标声音“个性化”,千人千面、每个人定制自己想要的语音,无疑成了语音合成皇冠上的明珠。

此时,MEITRON出来了,百度地图语音定制功能落地了,20句15字左右的跟读素材采集,实测15分钟左右的合成速度,驾车导航、语音交互、智能旅游的多样化个人语音应用……当百度地图打出这张技术+体验牌时,就是彻底的杀招。

一旦把地图APP中用户日常接触最频繁的语音改造成用户自己想要的声音,也意味着移动APP们共同的梦想——为每个用户打造只属于自己的“专属APP”得到切实的落地,APP产品梦寐以求的高用户粘性也有了额外支撑。

直白地说,如果百度地图APP独有用户个人或者想要的某种特质语音,他可能就更加没有理由再去使用其他产品。

百度语音首席架构师贾磊

出彩的语音定制,本质仍是百度地图“AI+地图”策略的重要一环

语音定制是百度地图的竞争杀招,但它仍旧处在百度地图“AI+地图”的整体招式之中。

这不是第一次AI技术在百度地图的应用。

2018年,百度AI开发者大会曾现场演示一段长达60多字的服务请求:“我要从三里屯的团结湖地铁站出发路过望京的家乐福然后再去南锣鼓巷最后到我家,我要红绿灯少的不堵车的最快的路线,你帮我路线规划一下吧”,百度地图语音助手顺利接受语音输入,自然流畅地提供了导航服务。

这个过程中,百度地图的语音技术迈过了AI语音操控的三道坎:听清,在类似驾车等嘈杂环境中听清楚语音;听懂,识别复杂语句的真实意图,尤其是适应用户非标准的、随性的请求;满足,将意图与后台操作对应,满足用户真实诉求。只有这样,所谓“全语音操控”才能坐实。

而这些同样得益于百度的语音技术能力——从SMLTA模型(一种大大提高语音理解能力的技术),到小度全双工连续交互技术(连续多次指令,不需要重复说小度小度这样的唤醒词,只要按正常人与人交流的方式即可)以及更多百度AI的亮眼语音技术来看,百度地图的全语音操控也并不意外。

在语音之外,百度地图还有许多与前沿科技结合的交互技术来提升用户体验。

例如,百度地图利用AR现实增强技术,在各个场景中,为用户提供沉浸式实景地图使用体验。比如,AR双屏步导功能可以同步显示常规地图与实景画面,用户只需要跟随实景画面中的箭头图案即可到达目的地;AR周边探索功能可显示当前场景内美食、娱乐、购物、丽人、运动、银行、酒店、景点、楼宇等POI点(兴趣点),点击即可导航;此外,地图常常被使用的旅游场景中,AR导览可以屏幕上标记当前景区的景点。

回过头来看,自从2018年3月百度地图并入AIG后,借助AI技术的百度地图焕发出全新的生机,凭借各种颠覆性的用户体验创新,百度地图与竞品的差异化程度逐步加深。

定制语音功能的推出,更标志着百度地图在竞争中已经升维,以拥抱未来的新一代产品姿态参与竞争。

可以料想的是,未来,这样借助AI等前沿技术的细节体验打磨想必会更多,技术上的绝对领先让百度地图不会再像过去那样在竞争中见招拆招不分胜负,招招必杀的2.0时代或已经开启。

结语

语音技术在百度地图上有了最佳实践,其实也是百度AI技术本身硬核实力的表现。除了百度地图,百度硬核的语音技术一直在赋能百度系内部各大产品,例如:

语音输入用户认知、使用状况、准确率遥遥领先行业的百度输入法,已经凭借语音输入获得了全新的差异化竞争优势;全新体验的语音搜索彻底解放用户双手,“所说即所得”,简单动动嘴即可探索世界,这为搜索注入了全新的动能;出货量国内第一、全球领先的小度音箱,区别竞品听不懂、乱回话的尴尬状况,为智能音箱的智能和体验正名……

百度AI业界公认最强,而语音定制功能反映出语音技术更是业界翘楚。从最深层的技术能力,到最表层的用户体验,百度语音技术凭借内部产品和外部合作伙伴打通了全部链路、进行了全面落地化的布局,正在成为百度AI的重头戏。

【完】

智能相对论(微信id:aixdlun):AI新媒体,今日头条青云计划获奖者TOP10,澎湃新闻科技7月榜单top5,著有《人工智能 十万个为什么》,重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。


推荐阅读
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • macOS Big Sur全新设计大版本更新,10+个值得关注的新功能
    本文介绍了Apple发布的新一代操作系统macOS Big Sur,该系统采用全新的界面设计,包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出,macOS Big Sur的设计与iPadOS越来越接近,结合了去年iPadOS对鼠标的完善等功能。 ... [详细]
  • Android源码中的Builder模式及其作用
    本文主要解释了什么是Builder模式以及其作用,并结合Android源码来分析Builder模式的实现。Builder模式是将产品的设计、表示和构建进行分离,通过引入建造者角色,简化了构建复杂产品的流程,并且使得产品的构建可以灵活适应变化。使用Builder模式可以解决开发者需要关注产品表示和构建步骤的问题,并且当构建流程发生变化时,无需修改代码即可适配新的构建流程。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文讨论了同事工资打听的话题,包括同工不同酬现象、打探工资的途径、为什么打听别人的工资、职业的本质、商业价值与工资的关系,以及如何面对同事工资比自己高的情况和凸显自己的商业价值。故事中的阿巧发现同事的工资比自己高后感到不满,通过与老公、闺蜜交流和搜索相关关键词来寻求解决办法。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了互联网思维中的三个段子,涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例,探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验,三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]
author-avatar
尼玛的被注册了
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有