热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

百度宣布AI同传最新突破!能预测,低延时,演示效果惊人,外媒称媲美人类翻译...

夏乙栗子乾明一璞发自三区五地量子位报道|公众号QbitAI同传AI,刚刚在国内掀起过暴风骤雨。但现在,百度于硅谷宣布了最新重大突破——一个名为STACL
夏乙 栗子 乾明 一璞 发自 三区五地 
量子位 报道 | 公众号 QbitAI

640?wx_fmt=jpeg

同传AI,刚刚在国内掀起过暴风骤雨。

但现在,百度于硅谷宣布了最新重大突破——一个名为STACL的同传AI,论文结果优异,Demo效果惊人。

MIT科技评论、IEEE Spectrum等一众外媒,还纷纷给出好评,这是2016年百度Deep Speech 2发布以来,又一项让技术外媒们如此激动的新进展。

百度自己披露:与现在大多数AI“实时”翻译系统不同,STACL的特点是能预测延时可控,能够在演讲者讲话后几秒钟开始翻译,并在句子结束后几秒钟内完成。

STACL不走“整句说完再翻译”的路线,甚至还会预测发言者未来几秒的内容,于是延时更短,更接近人类同传。

究竟能达到什么程度?IEEE Spectrum采访后给出类比:跟联合国会议里的人类同传相媲美。

实际效果果真如此?那突破显然重大。

Demo展示:翻译AI会预测

 看上去几乎同时了

Demo可以看出,百度STACL的翻译工作延时非常短,与原句只差几个字。

虽说这个AI目前只是同步翻译成文字,还没有合成译文的语音,但这不是重点。关键是,不知道你有没有注意到,这种“只差几个字”有多难得。

还没等“美国总统布什在莫斯科与俄罗斯总统普京在莫斯科会晤。”这句汉语说到莫斯科,自动翻译的英语已经出现了“meet”,也就是汉语句末的“会晤”。

640?wx_fmt=gif

这个“meet”,是AI从前半句话里脑补出来的,依据的是美国总统最可能与其他人发生怎样的活动。

因此,百度这个同传AI,不用等一句话说完,就能开始翻译了。

对于翻译AI来说,预测是一项很罕见的技能。不同语言的语序总有差异,所以,那些没有预测能力的翻译AI,通常需要等到人类讲完一句话,再开始翻译。

再举一个栗子 (下图) ,从“百度在18年前”这半句里,AI预测出了百度创立的内容“started a business”。

640?wx_fmt=gif

那么,科学地讲,百度AI的预测效果到底怎么样?

衡量翻译质量,要看BLEU分。

中译英延后5个字的情况下,比起传统的整句翻译AI,百度的BLEU分要低了3.4分。

毕竟是预测,发生错误是自然的。而这个差距在百度看来是可以接受的。

比如,百度AI可能从前半句话里预测出会面顺利进行,而事实可能是会面并不顺利。翻译就容易出现失误。

面对这样的情况,AI目前并没有纠错的能力。

不过,用小小的延时,就可以换取更高的准确度:如从延3个词到延5个词。用户可以根据需求随意调整。

640?wx_fmt=gif

 中英语序相似

而当两种语言语序相差不多的时候,例如描述戴安娜王妃车祸事件的新闻,STACL和传统整句翻译的成绩相比,就没有明显差异了。

这种预测能力,是哪来的?

答案是一个名叫wait-k的模型,它把预测和翻译无缝整合到了一起,百度把它和两个翻译模型结合起来做了实验,一个是比较早期的RNN翻译模型,另一个是Google在2017年推出即大热的Transformer。

不过,wait-k不仅仅适用于这两个模型,而是可以用在任何序列映射(sequence-to-sequence)模型上。也就是说,只要有个模型能搞定两种语言之间的翻译,加上这个wait-k做一点小改造,就能实现同传了。

一个机器翻译系统,离不开分析输入语言的编码器和输出目标语言的解码器,而wait-k对机器翻译模型所做的小改动,就在解码器上。它让解码器在输出内容的同时,能预测编码器还没有输入的东西。

百度用这样一个公式描述了这种解码策略:

640?wx_fmt=png

其中,x代表输入的内容,y代表输出,t代表时间步,而k表示的是解码器比编码器抢跑的词数。

技术细节在论文STACL: Simultaneous Translation with Integrated Anticipation and Controllable Latency中有详细的介绍。

640?wx_fmt=png

地址:https://arxiv.org/abs/1810.08398

团队介绍

640?wx_fmt=jpeg

By the way,按署名次序,介绍一下9位论文作者。

Mingbo Ma,百度硅谷AI实验室科学家,拥有三个学校的计算机博士学位,今年8月刚从俄勒冈州立大学博士毕业,另外两个学位在美国东北大学和纽约城市大学,本科毕业于吉林大学,此前曾在苹果和IBM实习。

黄亮,俄勒冈州立大学助理教授,百度美研首席科学家,此前曾就职于IBM和谷歌,并在纽约城市大学、南加州大学担任过助理教授,博士毕业于宾夕法尼亚大学。

Hao Xiong,爱丁堡大学计算机硕士,本科毕业于河海大学,2015年加入百度任软件工程师,负责大容量数据处理系统和资源调度系统。

Kaibo Liu,俄勒冈州立大学助理研究员,今年6月刚到百度实习,本科毕业于北大。

Chuanqiang Zhang,低调的百度技术员工,目前无更多资料。

何中军,百度主任架构师,从事机器翻译研究与开发十余年,多篇论文发表在本领域权威国际会议ACL、EMNLP、COLING、AAAI等,参与项目曾获2015年度国家科学技术进步奖二等奖。

Hairong Liu,百度硅谷AI实验室科学家,曾就职于三星和普渡大学,华中科大电子电气博士。

Xing Li,中科院自然语言处理和机器学习硕士,百度硅谷人工智能实验室的高级经理,曾任英特尔技术leader,在百度担任过技术工程经理,领导百度贴吧研发团队。

王海峰,百度高级副总裁,e-Staff,百度AIG负责人、百度研究院院长,哈工大计算机博士。

640?wx_fmt=jpeg

 王海峰

第一波评价

百度这次技术突破宣布后,首先在外媒引发报道。

有好评。其中评价最高的是IEEE Spectrum,认为百度开发的这个新系统,揭示了一种通过预测未来而保持稳定的翻译工具,可以与联合国会议期间提供同传服务的口译人员相媲美,让人们离软件巴别鱼又近了一步。

有对比。比如将百度的这次突破与谷歌联系起来。南华早报评论:随着百度新的翻译系统亮相,百度向谷歌发起了挑战。

还有将百度和谷歌放一起当“耦合”的。Engadget观点:

虽然这个系统仍旧有局限性,而且无法在必要的时候取代人类翻译。但是它在谷歌缺席中国的情况下,给出了一种新的选择。

SiliconANGLE则援引分析师评论称:“亚洲的语言翻译方面仍然存在一定的局限性,看到本地的玩家加入到这个游戏中来,的确是一件好事。”

但目前最多的态度是观望。

在技术宅密度比较高的Hacker News和Reddit上,百度的这条消息,并没有引发太多的讨论。

截至早上7点40分,Reddit只有一条评论,Hacker News上有两条评论——虽然这个消息发布已有5个多小时。

Reddit上面的一条评论有点“水”,只是说这个Demo很好。

640?wx_fmt=png

Hacker News的两条评论中,一条比较有技术含量,提出了如何翻译德语的问题,并给出了一些示例,另一条是说,这个Demo很好。

640?wx_fmt=png

比较有趣的是,两个说这个Demo很好的网友,昵称基本上是一样的。

不过这个技术到底好不好,更多中外关注者马上都能给出判断。

因为百度最快会在下周的年度技术大会上,进行公开展示。

究竟是重大突破,抑或还只是完美Demo,到时一看便知。

当然,有科研实力有技术复现的同学,现在就能去试试了。

欢迎反馈你的测后评价~

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态





推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • This article discusses the efficiency of using char str[] and char *str and whether there is any reason to prefer one over the other. It explains the difference between the two and provides an example to illustrate their usage. ... [详细]
  • Python脚本编写创建输出数据库并添加模型和场数据的方法
    本文介绍了使用Python脚本编写创建输出数据库并添加模型数据和场数据的方法。首先导入相应模块,然后创建输出数据库并添加材料属性、截面、部件实例、分析步和帧、节点和单元等对象。接着向输出数据库中添加场数据和历程数据,本例中只添加了节点位移。最后保存数据库文件并关闭文件。文章还提供了部分代码和Abaqus操作步骤。另外,作者还建立了关于Abaqus的学习交流群,欢迎加入并提问。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • 本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度,要求从最低点跳跃到最高点,每次跳跃的距离不超过D,并且不能改变给定的顺序。通过建立差分约束系统,将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法,并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ... [详细]
  • 本文介绍了P1651题目的描述和要求,以及计算能搭建的塔的最大高度的方法。通过动态规划和状压技术,将问题转化为求解差值的问题,并定义了相应的状态。最终得出了计算最大高度的解法。 ... [详细]
  • 加密世界下一个主流叙事领域:L2、跨链桥、GameFi等
    本文介绍了加密世界下一个主流叙事的七个潜力领域,包括L2、跨链桥、GameFi等。L2作为以太坊的二层解决方案,在过去一年取得了巨大成功,跨链桥和互操作性是多链Web3中最重要的因素。去中心化的数据存储领域也具有巨大潜力,未来云存储市场有望达到1500亿美元。DAO和社交代币将成为购买和控制现实世界资产的重要方式,而GameFi作为数字资产在高收入游戏中的应用有望推动数字资产走向主流。衍生品市场也在不断发展壮大。 ... [详细]
  • 本文介绍了Windows操作系统的版本及其特点,包括Windows 7系统的6个版本:Starter、Home Basic、Home Premium、Professional、Enterprise、Ultimate。Windows操作系统是微软公司研发的一套操作系统,具有人机操作性优异、支持的应用软件较多、对硬件支持良好等优点。Windows 7 Starter是功能最少的版本,缺乏Aero特效功能,没有64位支持,最初设计不能同时运行三个以上应用程序。 ... [详细]
  • 先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]
  • 本文介绍了OpenStack的逻辑概念以及其构成简介,包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]
author-avatar
cjcstc@163.com
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有