当前位置: 开发笔记 > 编程语言 > 正文

AI同传最新突破：能预测，低延时，外媒称媲美人类翻译

作者：维生素-熙 | 来源：互联网 | 2023-08-19 09:17

本文经AI新媒体量子位（公众号ID：qbitai）授权转载，转载请联系出处。本文约2500字，建议阅读5分钟。

640?wx_fmt&＃61;png

本文经AI新媒体量子位&＃xff08;公众号ID&＃xff1a;qbitai&＃xff09;授权转载&＃xff0c;转载请联系出处。

本文约2500字&＃xff0c;建议阅读5分钟。

本文为你介绍了百度于硅谷宣布了最新重大突破——一个名为STACL的同传AI的情况。

同传AI&＃xff0c;刚刚在国内掀起过暴风骤雨。

但现在&＃xff0c;百度于硅谷宣布了最新重大突破——一个名为STACL的同传AI&＃xff0c;论文结果优异&＃xff0c;Demo效果惊人。

MIT科技评论、IEEE Spectrum等一众外媒&＃xff0c;还纷纷给出好评&＃xff0c;这是2016年百度Deep Speech 2发布以来&＃xff0c;又一项让技术外媒们如此激动的新进展。

百度自己披露&＃xff1a;与现在大多数AI“实时”翻译系统不同&＃xff0c;STACL的特点是能预测和延时可控&＃xff0c;能够在演讲者讲话后几秒钟开始翻译&＃xff0c;并在句子结束后几秒钟内完成。

STACL不走“整句说完再翻译”的路线&＃xff0c;甚至还会预测发言者未来几秒的内容&＃xff0c;于是延时更短&＃xff0c;更接近人类同传。

究竟能达到什么程度&＃xff1f;IEEE Spectrum采访后给出类比&＃xff1a;跟联合国会议里的人类同传相媲美。

实际效果果真如此&＃xff1f;那突破显然重大。

Demo展示&＃xff1a;翻译AI会预测

视频时长13S&＃xff0c;建议WIFI条件下观看

Demo可以看出&＃xff0c;百度STACL的翻译工作延时非常短&＃xff0c;与原句只差几个字。

虽说这个AI目前只是同步翻译成文字&＃xff0c;还没有合成译文的语音&＃xff0c;但这不是重点。关键是&＃xff0c;不知道你有没有注意到&＃xff0c;这种“只差几个字”有多难得。

还没等“美国总统布什在莫斯科与俄罗斯总统普京在莫斯科会晤。”这句汉语说到莫斯科&＃xff0c;自动翻译的英语已经出现了“meet”&＃xff0c;也就是汉语句末的“会晤”。

这个“meet”&＃xff0c;是AI从前半句话里脑补出来的&＃xff0c;依据的是美国总统最可能与其他人发生怎样的活动。

因此&＃xff0c;百度这个同传AI&＃xff0c;不用等一句话说完&＃xff0c;就能开始翻译了。

对于翻译AI来说&＃xff0c;预测是一项很罕见的技能。不同语言的语序总有差异&＃xff0c;所以&＃xff0c;那些没有预测能力的翻译AI&＃xff0c;通常需要等到人类讲完一句话&＃xff0c;再开始翻译。

再举一个栗子 (下图) &＃xff0c;从“百度在18年前”这半句里&＃xff0c;AI预测出了百度创立的内容“started a business”。

那么&＃xff0c;科学地讲&＃xff0c;百度AI的预测效果到底怎么样&＃xff1f;

衡量翻译质量&＃xff0c;要看BLEU分。

在中译英延后5个字的情况下&＃xff0c;比起传统的整句翻译AI&＃xff0c;百度的BLEU分要低了3.4分。

毕竟是预测&＃xff0c;发生错误是自然的。而这个差距在百度看来是可以接受的。

比如&＃xff0c;百度AI可能从前半句话里预测出会面顺利进行&＃xff0c;而事实可能是会面并不顺利。翻译就容易出现失误。

面对这样的情况&＃xff0c;AI目前并没有纠错的能力。

不过&＃xff0c;用小小的延时&＃xff0c;就可以换取更高的准确度&＃xff1a;如从延3个词到延5个词。用户可以根据需求随意调整。

中英语序相似

而当两种语言语序相差不多的时候&＃xff0c;例如描述戴安娜王妃车祸事件的新闻&＃xff0c;STACL和传统整句翻译的成绩相比&＃xff0c;就没有明显差异了。

这种预测能力&＃xff0c;是哪来的&＃xff1f;

答案是一个名叫wait-k的模型&＃xff0c;它把预测和翻译无缝整合到了一起&＃xff0c;百度把它和两个翻译模型结合起来做了实验&＃xff0c;一个是比较早期的RNN翻译模型&＃xff0c;另一个是Google在2017年推出即大热的Transformer。

不过&＃xff0c;wait-k不仅仅适用于这两个模型&＃xff0c;而是可以用在任何序列映射&＃xff08;sequence-to-sequence&＃xff09;模型上。也就是说&＃xff0c;只要有个模型能搞定两种语言之间的翻译&＃xff0c;加上这个wait-k做一点小改造&＃xff0c;就能实现同传了。

一个机器翻译系统&＃xff0c;离不开分析输入语言的编码器和输出目标语言的解码器&＃xff0c;而wait-k对机器翻译模型所做的小改动&＃xff0c;就在解码器上。它让解码器在输出内容的同时&＃xff0c;能预测编码器还没有输入的东西。

百度用这样一个公式描述了这种解码策略&＃xff1a;

640?wx_fmt&＃61;png

其中&＃xff0c;x代表输入的内容&＃xff0c;y代表输出&＃xff0c;t代表时间步&＃xff0c;而k表示的是解码器比编码器抢跑的词数。

技术细节在论文STACL: Simultaneous Translation with Integrated Anticipation and Controllable Latency中有详细的介绍。

640?wx_fmt&＃61;png

地址&＃xff1a;
https://arxiv.org/abs/1810.08398

团队介绍

By the way&＃xff0c;按署名次序&＃xff0c;介绍一下9位论文作者。

Mingbo Ma&＃xff0c;百度硅谷AI实验室科学家&＃xff0c;拥有三个学校的计算机博士学位&＃xff0c;今年8月刚从俄勒冈州立大学博士毕业&＃xff0c;另外两个学位在美国东北大学和纽约城市大学&＃xff0c;本科毕业于吉林大学&＃xff0c;此前曾在苹果和IBM实习。

黄亮&＃xff0c;俄勒冈州立大学助理教授&＃xff0c;百度美研首席科学家&＃xff0c;此前曾就职于IBM和谷歌&＃xff0c;并在纽约城市大学、南加州大学担任过助理教授&＃xff0c;博士毕业于宾夕法尼亚大学。

Hao Xiong&＃xff0c;爱丁堡大学计算机硕士&＃xff0c;本科毕业于河海大学&＃xff0c;2015年加入百度任软件工程师&＃xff0c;负责大容量数据处理系统和资源调度系统。

Kaibo Liu&＃xff0c;俄勒冈州立大学助理研究员&＃xff0c;今年6月刚到百度实习&＃xff0c;本科毕业于北大。

Chuanqiang Zhang&＃xff0c;低调的百度技术员工&＃xff0c;目前无更多资料。

何中军&＃xff0c;百度主任架构师&＃xff0c;从事机器翻译研究与开发十余年&＃xff0c;多篇论文发表在本领域权威国际会议ACL、EMNLP、COLING、AAAI等&＃xff0c;参与项目曾获2015年度国家科学技术进步奖二等奖。

Hairong Liu&＃xff0c;百度硅谷AI实验室科学家&＃xff0c;曾就职于三星和普渡大学&＃xff0c;华中科大电子电气博士。

Xing Li&＃xff0c;中科院自然语言处理和机器学习硕士&＃xff0c;百度硅谷人工智能实验室的高级经理&＃xff0c;曾任英特尔技术leader&＃xff0c;在百度担任过技术工程经理&＃xff0c;领导百度贴吧研发团队。

王海峰&＃xff0c;百度高级副总裁&＃xff0c;e-Staff&＃xff0c;百度AIG负责人、百度研究院院长&＃xff0c;哈工大计算机博士。

王海峰

第一波评价

百度这次技术突破宣布后&＃xff0c;首先在外媒引发报道。

有好评。其中评价最高的是IEEE Spectrum&＃xff0c;认为百度开发的这个新系统&＃xff0c;揭示了一种通过预测未来而保持稳定的翻译工具&＃xff0c;可以与联合国会议期间提供同传服务的口译人员相媲美&＃xff0c;让人们离软件巴别鱼又近了一步。

有对比。比如将百度的这次突破与谷歌联系起来。南华早报评论&＃xff1a;随着百度新的翻译系统亮相&＃xff0c;百度向谷歌发起了挑战。

还有将百度和谷歌放一起当“耦合”的。Engadget观点&＃xff1a;

虽然这个系统仍旧有局限性&＃xff0c;而且无法在必要的时候取代人类翻译。但是它在谷歌缺席中国的情况下&＃xff0c;给出了一种新的选择。

SiliconANGLE则援引分析师评论称&＃xff1a;“亚洲的语言翻译方面仍然存在一定的局限性&＃xff0c;看到本地的玩家加入到这个游戏中来&＃xff0c;的确是一件好事。”

但目前最多的态度是观望。

在技术宅密度比较高的Hacker News和Reddit上&＃xff0c;百度的这条消息&＃xff0c;并没有引发太多的讨论。

截至早上7点40分&＃xff0c;Reddit只有一条评论&＃xff0c;Hacker News上有两条评论——虽然这个消息发布已有5个多小时。

Reddit上面的一条评论有点“水”&＃xff0c;只是说这个Demo很好。

Hacker News的两条评论中&＃xff0c;一条比较有技术含量&＃xff0c;提出了如何翻译德语的问题&＃xff0c;并给出了一些示例&＃xff0c;另一条是说&＃xff0c;这个Demo很好。

比较有趣的是&＃xff0c;两个说这个Demo很好的网友&＃xff0c;昵称基本上是一样的。

不过这个技术到底好不好&＃xff0c;更多中外关注者马上都能给出判断。

因为百度最快会在下周的年度技术大会上&＃xff0c;进行公开展示。

究竟是重大突破&＃xff0c;抑或还只是完美Demo&＃xff0c;到时一看便知。

当然&＃xff0c;有科研实力有技术复现的同学&＃xff0c;现在就能去试试了。

欢迎反馈你的测后评价~

— 完 —

推荐阅读

import
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
io
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
byte
Linux网络配置详解：Firewalld与Netfilter机制解析及iptables应用

在Linux系统中，网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制，并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址（需要安装`iproute`包），当网卡未分配IP地址或处于关闭状态时，可以通过`ip link set`命令进行配置和激活。此外，文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理，为系统管理员提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 12:37:55
copy
【源自百度知识】批处理技术详解与应用

本文详细介绍了批处理技术的基本概念及其在实际应用中的重要性。首先，对简单的批处理内部命令进行了概述，重点讲解了Echo命令的功能，包括如何打开或关闭回显功能以及显示消息。如果没有指定任何参数，Echo命令会显示当前的回显设置。此外，文章还探讨了批处理技术在自动化任务执行、系统管理等领域的广泛应用，为读者提供了丰富的实践案例和技术指导。 ... [详细]

蜡笔小新 2024-11-09 10:19:25
io
SSAS入门指南：基础知识与核心概念解析

### SSAS入门指南：基础知识与核心概念解析Analysis Services 是一种专为决策支持和商业智能（BI）解决方案设计的数据引擎。该引擎能够为报告和客户端应用提供高效的分析数据，并支持在多维数据模型中构建高性能的分析应用。通过其强大的数据处理能力和灵活的数据建模功能，Analysis Services 成为了现代 BI 系统的重要组成部分。 ... [详细]

蜡笔小新 2024-11-07 03:53:06
import
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
main
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
io
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
python
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
const
在Android平台上利用FFmpeg的Swscale组件实现YUV与RGB格式互转

本文探讨了在Android平台上利用FFmpeg的Swscale组件实现YUV与RGB格式互转的技术细节。通过详细分析Swscale的工作原理和实际应用，展示了如何在Android环境中高效地进行图像格式转换。此外，还介绍了FFmpeg的全平台编译过程，包括x264和fdk-aac的集成，并在Ubuntu系统中配置Nginx和Nginx-RTMP-Module以支持直播推流服务。这些技术的结合为音视频处理提供了强大的支持。 ... [详细]

蜡笔小新 2024-10-28 21:59:37
random
TensorFlow基础知识深化讲解

批标准化批标准化（batchnormalization,BN）是为了克服神经网络层数加深导致难以训练而诞生的。深度神经网络随着深度加深，收 ... [详细]

蜡笔小新 2024-10-22 10:19:31
main
构建基础的字符串队列实现方法

在探讨如何构建基础的字符串队列实现方法时，我们发现许多开发者在面对这一问题时常常感到困惑。实际上，队列的基本原理非常简单，即遵循先进先出的原则。然而，在具体实现过程中，需要注意的是Java语言中并没有指针的概念，因此需要通过嵌套类来模拟指针，进而构建链表结构。这种实现方式不仅能够有效地管理字符串数据，还能提升代码的可读性和维护性。 ... [详细]

蜡笔小新 2024-11-10 11:11:18
main
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
byte
手指触控|Android电容屏幕驱动调试指南

手指触控|Android电容屏幕驱动调试指南 ... [详细]

蜡笔小新 2024-11-07 01:42:20
main
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39

维生素-熙

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章