当前位置: 开发笔记 > 后端 > 正文

技术界与翻译界的交锋：机器翻译离我们还有多远？|清华AITime

作者：Cindere丷lla_茹满 | 来源：互联网 | 2023-08-20 15:54

来源：大数据文摘本文约4350字，建议阅读7分钟。机器翻译对于人工翻译而言是威胁还是可利用工具？在多大程度上机器翻译又能帮助普通用户呢&#

640?wx_fmt&＃61;png

来源&＃xff1a;大数据文摘

本文约4350字&＃xff0c;建议阅读7分钟。

机器翻译对于人工翻译而言是威胁还是可利用工具&＃xff1f;在多大程度上机器翻译又能帮助普通用户呢&＃xff1f;

640?wx_fmt&＃61;jpeg

作为自然语言处理中一项非常重要的应用&＃xff0c;现代意义上的机器翻译概念从上世纪40年代提出至今&＃xff0c;经过了几代革新&＃xff0c;现已初步实现了多场景的落地和应用。近几年随着机器翻译质量的提高&＃xff0c;机器翻译代替人工翻译的声势逐渐浩大起来&＃xff0c;那么机器翻译对于人工翻译而言是威胁还是可利用工具&＃xff1f;在多大程度上机器翻译又能帮助普通用户呢&＃xff1f;

640?wx_fmt&＃61;jpeg

在AI Time第六期的辩论中&＃xff0c;中科院自动化研究所研究员宗成庆、北京外国语大学高级翻译学院副院长李长栓、苏州大学计算机学院副院长国家杰青张民、东北大学计算机学院教授朱靖波、清华大学计算机科学与技术系长聘副教授刘洋一起论道了机器翻译的相关问题。

640?wx_fmt&＃61;png

机器翻译历史

机器翻译的历史大体可以分为两大阶段&＃xff0c;第一阶段是从60年代到90年代初期&＃xff0c;理性主义方法是主流&＃xff0c;主要是让人类专家观察语言规律&＃xff0c;把它描述成规则&＃xff0c;让机器按照既定规则进行翻译。第二个阶段是90年代&＃xff0c;特别是互联网出现以后&＃xff0c;开始从事统计机器翻译研究&＃xff0c;此时数据以及相应的数据驱动方法得到蓬勃发展。

统计方法比较经典的模型叫做隐变量对数线性模型&＃xff0c;它的特点是要设计特征&＃xff0c;X代表输入&＃xff0c;Y代表输出&＃xff0c;Z就代表中间的语言结构&＃xff0c;通过定义各种特征函数来训练一个参数&＃xff0c;很多工作都集中在如何设计好的特征来描述翻译规律上。

但语言太过复杂&＃xff0c;穷尽人类智慧也很难把这个特征设计全面&＃xff0c;其中一个难点称之为调序&＃xff0c;比如“就中东局势举行了一个小时会谈”&＃xff0c;这是一个典型的介词短语和动词短语的组合&＃xff0c;在中文中先说介词短语&＃xff0c;再说动词短语&＃xff0c;但在英文中都是反过来的。

2015年后&＃xff0c;深度学习在机器翻译得到应用。深度学习的主要意义在于它可以从数据中自动提取表示&＃xff0c;就不需要像以前一样设计特征来描述翻译规则&＃xff0c;只需要设计一个网络&＃xff0c;让机器自动在数据去寻找表述&＃xff0c;效果非常好。但还是有难解决的问题&＃xff0c;它根本不知道数字是什么意思&＃xff0c;不知道为什么出错&＃xff0c;不知道怎么去改动它&＃xff0c;而且很难控制。

目前最核心的技术叫做注意力机制&＃xff0c;希望通过自动计算发现中英文之间的相关性&＃xff0c;这在整个深度学习里也是非常核心的技术。现在可以利用一些比较新的技术&＃xff0c;这个是transformer&＃xff0c;希望能够处理更长的序列。

机器翻译旨在弥补人类干不了的场景

最近几年出现了一系列机器翻译应用&＃xff0c;比如翻译机、微信的翻译服务。机器翻译很大程度上是为解决不同国家、不同文化之间的沟通问题&＃xff0c;如果机器翻译能在一定程度上取代人、帮助人&＃xff0c;沟通的信道会有一个巨大的释放。那么机器翻译究竟能否代替人呢&＃xff1f;

宗成庆老师认为&＃xff0c;机器翻译近几年的进步很大&＃xff0c;可以大幅提高翻译效率&＃xff0c;但是机器翻译的运用需要基于场景和任务&＃xff0c;机器翻译在一些场景下确实能帮助人&＃xff0c;比如旅游问路&＃xff0c;但是在某些领域&＃xff0c;比如高层次的翻译&＃xff0c;要对机器翻译寄予太多的希望还为时过早。

张民老师对宗老师的观点表示赞同&＃xff0c;他补充道&＃xff0c;机器翻译要从学术界和产业界两个侧面看。学术界一直可以做下去&＃xff0c;产业界里机器翻译已经蓬勃发展&＃xff0c;产业对学术界技术需求强烈&＃xff0c;技术达到了产业低端门坎&＃xff0c;产业推动技术发展、技术服务行业。

李长栓老师也认为虽然机器翻译进步惊人&＃xff0c;但不会有取代人的一天&＃xff0c;其主要原因在于机器翻译质量还达不到专业翻译的要求&＃xff0c;单个句子能理解&＃xff0c;但通篇没有逻辑。

朱靖波老师同意宗老师和张老师的观点&＃xff0c;并举例说&＃xff0c;通常假设翻译人员的结果完全正确&＃xff0c;而技术想要超过100%去达到101%的正确率&＃xff0c;这在真理上是无法超越的。

但是机器翻译在大数据之后蓬勃发展&＃xff0c;并非意在取代人类&＃xff0c;比如国家知识产权里几百万个专利文档&＃xff0c;只能利用机器翻译&＃xff0c;非人工所为&＃xff1b;再比如身在国外&＃xff0c;人工翻译不可能随时在身边&＃xff0c;只能利用机器翻译&＃xff0c;这都不能算是代替人工翻译&＃xff0c;而是去弥补人工翻译干不了的应用场景。

是机器翻译的问题&＃xff0c;还是技术尚未成熟&＃xff1f;

李长栓老师根据自己的使用经验&＃xff0c;归纳了一下机器翻译中遇到的主要问题&＃xff1a;

以句子为基础翻译&＃xff0c;忽略上下文

中文长句子翻译成英文&＃xff0c;需要断成几句&＃xff0c;但断开之后&＃xff0c;后面的句子就没有主语了&＃xff0c;这时候要补充主语。而机器翻译根据什么补充主语成迷。

同一个词出现多个译文版本

比如“诉裁程序”&＃xff0c;机器翻译给出了十几个译文版本&＃xff0c;这个问题应该可以解决&＃xff0c;但是神经网络翻译似乎还没有解决这个问题。

机械处理信息

机器翻译是依赖于形式的转换&＃xff0c;遇到歧义时是根据概率决定修饰关系&＃xff1b;一词多义也是&＃xff0c;即便给了语料库&＃xff0c;但是在同一个专业领域&＃xff0c;一个词也有很多意思。

640?wx_fmt&＃61;jpeg

朱靖波老师对此表示部分赞同&＃xff1a;

首先&＃xff0c;目前基于句子级翻译系统主要因为具体实现机制的问题&＃xff0c;实际上学术界关于篇章级机器翻译有不少研究工作。基于上下文分析主语省略和指代消解等问题&＃xff0c;他更倾向于认为是理解问题而非翻译问题&＃xff0c;但可以将两者结合起来实现更好的翻译结果。

其次&＃xff0c;有些问题应该分成两个环节来考虑&＃xff0c;比如原文错误&＃xff0c;人会通过理解对其进行纠正错误后翻译&＃xff0c;但是对于机器翻译来说&＃xff0c;它认为这是用户想要表达的意思&＃xff0c;不能轻易自动修改原文&＃xff0c;导致错误的翻译。这就引出一点&＃xff0c;机器翻译是不是和别的技术融合在一起使用的效果更好。

最后&＃xff0c;一词多义跟结构歧义的问题是现在做得不够好&＃xff0c;不是机器翻译没有能力解决&＃xff0c;机器翻译建模的核心就是为了解决这两个问题。

宗成庆老师指出&＃xff0c;现在机器翻译的基本假设是&＃xff0c;只要收集到足够多样本就行。但这个假设是有问题的&＃xff0c;第一&＃xff0c;模型能否学成存疑&＃xff0c;第二&＃xff0c;不应该只基于样本&＃xff0c;还有日常生活经历和常识等。现在的模型还不够智能&＃xff0c;提供足够的样本也无法学成&＃xff0c;这也是提出基于知识的机器翻译的原因。

张民老师从学术界的角度分析了机器翻译存在的两个重大问题。一是篇章问题&＃xff0c;翻译本来应该根据上下文理解和逻辑分析&＃xff0c;但目前机器翻译建模方法都是句子对句子&＃xff0c;在句子层面把翻译看作是纯数学映射&＃xff0c;因此深度学习的方法如果遇上语料训练缺失的情况急剧下降。二是知识和推理驱动&＃xff0c;不仅仅是语言学知识&＃xff0c;还包括常识知识、领域知识、世界知识等。

预训练的提出与背景补充构想

刘洋老师举了一个例子&＃xff0c;有高翻在法国为了翻译一本很厚的地铁资料&＃xff0c;坐了一周的法国地铁&＃xff0c;向乘务员询问各种信息&＃xff0c;后来为核电站翻译也是如此&＃xff0c;要知道设备的用途&＃xff0c;他认为翻译的绝大功夫都是花在对背景知识的理解。

而反观现在的机器翻译&＃xff0c;还是基于数据&＃xff0c;没有上升到知识。预训练是一个非常不一样的想法&＃xff0c;在单语数据上设计相关问题的学习任务&＃xff0c;这样数据几乎是无限的&＃xff0c;然后在上面训练模型。

过去一年&＃xff0c;预训练的方法基本刷榜了LP任务&＃xff0c;普遍提升8-10个点。但是机器翻译还没有这么好的效果&＃xff0c;因为翻译的输出不是简单的分类&＃xff0c;而是整个序列&＃xff0c;这个序列光输出这个词&＃xff0c;就是指数级的数据&＃xff0c;同时还要排准数据和阶层&＃xff0c;复杂度非常高。

预训练和机器翻译的结合是一个方向&＃xff0c;如果提升到基于知识的翻译系统&＃xff0c;显然是更好的策略。目前比较容易想到的是知识图谱和机器翻译结合&＃xff0c;但这块没有突破性的进展。

李长栓老师也认为专业翻译大部分时间是用来查资料的&＃xff0c;他举例&＃xff0c;“某一个先生指出&＃xff0c;索马里沿海海岛问题&＃xff0c;联络小组鼓励通过法律允许根据捕获和释放的做法进行起诉”&＃xff0c;看完之后不知所云&＃xff0c;这就是机器翻译的结果。

这种时候专业翻译就会去查阅相关资料&＃xff0c;明白之后再进行翻译&＃xff0c;“谁谁指出&＃xff0c;鉴于一些国家存在先抓后放的做法&＃xff0c;某小组鼓励相关国家通过立法允许起诉”。翻译是一个不断调查、不断获取文字背后意思的过程&＃xff0c;表达的过程是在理解基础上自然形成的。

同时李长栓老师也提供了他对机器翻译的优化思路&＃xff0c;机器补充知识是机器的优势&＃xff0c;它有无穷无尽的语料&＃xff0c;翻译某一句话时就可以利用超链接等方式提供相关背景&＃xff0c;这样会更有助于翻译的进行。

朱靖波老师根据自己的经验列举出好的机器翻译系统需要的三个东西。一是扩大训练数据规模&＃xff0c;提高品质&＃xff1b;二是不断创新技术&＃xff1b;三是根据问题不断打磨&＃xff0c;三者缺一不可。他把机器翻译技术的概念扩大到两个不同对象之间的等价转换&＃xff0c;并认为机器翻译与人工智能和NLP不同&＃xff0c;机器翻译是一个产业&＃xff0c;机器翻译&＃43;也是一个产业。

宗成庆老师认为虽然现在机器翻译问题很多&＃xff0c;但是不用悲观&＃xff0c;从研究角度讲&＃xff0c;只有发现问题才能改进问题&＃xff0c;问题代表了进步空间。

机器翻译的突破口在于产生新的范式

朱靖波老师认为未来机器翻译的突破口在于产学研形成闭环&＃xff0c;应用需求不断推进机器翻译理论和技术研究。

刘洋老师表示&＃xff0c;必须要在范式上进行革新&＃xff0c;要找到好的策略和方法&＃xff0c;充分利用非标注数据。或者能把数据用好&＃xff0c;或者能够从未标注数据中提炼出知识&＃xff0c;这两点都非常关键。

李长栓老师认为&＃xff0c;机器翻译在中英文间的切换还是很困难&＃xff0c;但是在新闻语言等领域&＃xff0c;机器翻译的质量已经很高。未来的突破还是要回归到范式或者是思维方法的改变上来&＃xff0c;从句子当中抓取意思&＃xff0c;再重新表达&＃xff0c;这是人做翻译时的思维过程&＃xff0c;未来机器翻译也是这样。

宗成庆老师补充道&＃xff0c;高质量的机器翻译结果并非一定要达到信达雅&＃xff0c;那是人类翻译的终极目标&＃xff0c;目前在某些场景的翻译结果已经很好&＃xff0c;未来还需要解决更细节的问题。从某种意义上讲&＃xff0c;现在神经网络机器翻译的性能已经接近天花板&＃xff0c;未来一定是对翻译模型进行改进和提高&＃xff0c;从技术应用和产业发展的角度讲&＃xff0c;需要明确具体需求和任务&＃xff0c;针对性地做定向开发&＃xff0c;这是推动整个技术真正走向实用的比较可行的路线。

张民老师表示&＃xff0c;机器翻译本身既是一个科学问题&＃xff0c;又是一个工程问题&＃xff0c;未来想要突破&＃xff0c;科学上的突破一定要从科学技术上产生新的范式&＃xff1b;工程上的突破一定要依赖知识&＃xff0c;而知识需要在不同的领域、需要全人类来解决。

编辑&＃xff1a;文婧

校对&＃xff1a;王欣

推荐阅读

ci
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
ci
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
ci
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
ci
京东AI创新之路：周伯文解析京东AI战略的独特之处

2018年4月15日，京东在北京举办了人工智能创新峰会，会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果，还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]

蜡笔小新 2024-12-06 22:57:11
ci
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
ci
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
ci
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
ci
强人工智能时代，区块链的角色与前景

随着强人工智能的崛起，区块链技术在新的技术生态中扮演着怎样的角色？本文探讨了区块链与强人工智能之间的互补关系及其在未来技术发展中的重要性。 ... [详细]

蜡笔小新 2024-12-07 14:46:21
ci
4000名‘数学基础薄弱’的程序员逆袭成功！揭秘如何学好AI与算法

对于那些数学基础较差的程序员来说，数学在编程中的重要性往往在工作中才逐渐显现。通过两个实际案例，我们可以深入了解数学如何帮助程序员更好地理解和优化代码。 ... [详细]

蜡笔小新 2024-12-05 19:05:15
ci
TensorFlow 入门：MNIST 数据集实战

本文详细介绍了 TensorFlow 的入门实践，特别是使用 MNIST 数据集进行数字识别的项目。文章首先解析了项目文件结构，并解释了各部分的作用，随后逐步讲解了如何通过 TensorFlow 实现基本的神经网络模型。 ... [详细]

蜡笔小新 2024-12-05 13:06:15
ci
利用神经网络破解数学难题：求解偏微分方程的新途径

一项来自Quantamagazine的最新研究揭示，借助人工智能的深度学习技术，特别是深度神经网络，科学家们能够在数学建模领域取得突破，显著提高了处理复杂系统中偏微分方程的速度与效率。 ... [详细]

蜡笔小新 2024-12-01 14:44:13
ci
ICML2020: 利用贝叶斯元学习在全局关系图上实现小样本关系抽取

本文介绍了加拿大蒙特利尔大学Mila研究所唐建教授团队在ICML2020上发布的一项研究，该研究探讨了如何利用全局关系图来探索句子间的新关系，并提出了一种创新的贝叶斯元学习方法。 ... [详细]

蜡笔小新 2024-12-01 14:34:30
ci
全面解析自然语言处理NLP及其学习资源

本文将深入浅出地介绍自然语言处理的基本概念、发展历程及未来趋势，并提供丰富的学习资料。 ... [详细]

蜡笔小新 2024-11-16 18:11:23
ci
Linux系统中权限修改命令详解：chmod使用方法与技巧

在Linux系统中，`chmod`命令用于修改文件和目录的访问权限。文件和目录的访问控制由其所有权和权限设置决定。本文将详细介绍`chmod`命令的使用方法和技巧，帮助用户更好地管理和控制文件系统的安全性。 ... [详细]

蜡笔小新 2024-11-11 17:36:22
ci
步入人工智能新时代，这些关键知识点不容错过

步入人工智能新时代，掌握这些关键知识点至关重要。AI技术将成为人类的重要辅助工具，不仅能够扩展和增强人类的智能，还能帮助我们实现更加卓越的成就。新一代人工智能技术的发展将为各行各业带来深远的影响，推动社会进步与创新。 ... [详细]

蜡笔小新 2024-10-29 20:04:07

Cindere丷lla_茹满

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章