自然语言处理扫盲·第二天——白话机器翻译原理

作者：三毛2502858553 | 来源：互联网 | 2023-07-17 13:10

由于最近要做一些自然语言处理的分享，但是我又不是科班出身，所以只能临时抱佛脚的学习以下基本的原理。但是由于底子很薄，所以只能凭借googl

由于最近要做一些自然语言处理的分享&＃xff0c;但是我又不是科班出身&＃xff0c;所以只能临时抱佛脚的学习以下基本的原理。但是由于底子很薄&＃xff0c;所以只能凭借google和baidu有限的资料进行总结。这里不会看到太复杂的公式&＃xff0c;因为公式层面我也理解不了....就当做是从0学习自然语言处理的过程的记录吧&＃xff01;

更多内容参考&＃xff1a;

自然语言处理扫盲·第一天——自然语言处理的背景、应用、推荐资料

如果有哪里说的不对的&＃xff0c;还请严厉指正&＃xff0c;小博主一定虚心领教&＃xff0c;仔细研究&＃xff01;以免误导大众...

下面就步入正题吧&＃xff01;

这个方向在几个大厂应该都比较成熟了&＃xff0c;比如有道翻译、百度翻译、Google翻译等等。我平时用的有道比较多&＃xff0c;一般都是去翻译个英文文档之类的。因为有道做的词典比较专业&＃xff0c;因此在英译汉或者汉译英的时候认可度能高点。

我们先来看看机器翻译是怎么被玩坏的吧&＃xff01;

PS: 这个梗真的不是我黑谁&＃xff01;我也是从PPT上面看到的&＃xff0c;觉得这个例子很不错.....

话说回来&＃xff0c;在机器翻译的领域&＃xff0c;有很多难点。比如&＃xff0c;语言的复杂程度&＃xff0c;上下文的关联等等。想想看&＃xff0c;同样是汉语&＃xff0c;山东大汉和陕西小哥以及东北姑娘说出来的都是不一样的&＃xff1b;再想想汉语中的博大精深&＃xff0c;同样一段话&＃xff0c;上下文不同表达的含义也是不一样的&＃xff1b;再复杂点&＃xff0c;涉及到两种语言的切换&＃xff0c;就更恐怖了。

目前业内主要的实现手段有基于规则的、基于实例的、基于统计的以及基于神经网络的&＃xff0c;看着感觉蒙蒙哒&＃xff0c;我们来具体的了解下吧&＃xff1a;

基于规则的机器翻译

基于规则的机器翻译&＃xff0c;是最古老也是见效最快的一种翻译方式。

根据翻译的方式可以分为&＃xff1a;

直接基于词的翻译
结构转换的翻译
中间语的翻译

从字面上理解&＃xff0c;基于词的翻译就是直接把词进行翻译&＃xff0c;但是也不是这么简单&＃xff0c;会通过一些词性的变换、专业词汇的变换、位置的调整等一些规则&＃xff0c;进行修饰。

可以看到翻译的质量很差&＃xff0c;但是基于这种词规则的翻译&＃xff0c;基本上可以辅助我们做一些翻译的工作&＃xff1b;而且这种翻译也带来了机器翻译的0到1的飞跃

那么基于结构转换其实就是不仅仅考虑单个词&＃xff0c;而是考虑到短语的级别。比如根据端与do chicken有可能被翻译成烹饪鸡&＃xff0c;那么整句话就好多了我们烹饪鸡好吗

最后一种就是基于中间语的翻译&＃xff0c;比如过去在金本位的年代&＃xff0c;各国都有自己的货币。中国使用中国的货币&＃xff0c;美国使用美国的货币&＃xff0c;那么货币之间怎么等价呢&＃xff1f;就可以兑换成黄金来衡量价值。这样就可以进行跨币种的买卖了..翻译也是如此&＃xff0c;倘若由两种语言无法直译&＃xff0c;那么也可以先翻译成中间语&＃xff0c;然后通过中间语进行两种语言的翻译。

基于统计的机器翻译

基于统计的机器翻译明显要比基于规则的高级的多&＃xff0c;因为引入了一些数学的方法&＃xff0c;总体上显得更加专业。那么我们看看它是怎么做的吧&＃xff01;

首先&＃xff0c;我们有一段英文想要把它翻译成汉语&＃xff1a;

we do chicken right

会根据每个词或者短语&＃xff0c;罗列它可能出现的翻译结果:

我们/做/鸡/右我们/做/鸡/好吗我们/干/鸡/怎么样 ...

这样的结果有很多种...

然后我们需要一个大量的语料库&＃xff0c;即有大量的文章...这些文章会提供每一种翻译结果出现的概率&＃xff0c;概率的计算方式可能是使用隐马尔可夫模型&＃xff0c;即自己算相邻词的概率&＃xff0c;这个原理在《数学之美》中有介绍&＃xff0c;感兴趣的可以去看看。

最终挑选概率最高的翻译结果作为最终的输出。

总结来说大致的流程是&＃xff1a;

因此可以看到&＃xff0c;这种翻译方式依赖大量的语料库&＃xff0c;因此大多数使用这种方式而且效果比较好的都是那种搜索引擎公司&＃xff0c;比如Google和Baidu&＃xff0c;他们依赖爬虫技术有互联网中大量的文本资料&＃xff0c;基于这些文本资料可以获取大量的语料来源&＃xff0c;从而为自己的翻译提供大量的依据数据。

基于实例的机器翻译

这种翻译也比较常见&＃xff0c;通俗点说就是抽取句子的模式&＃xff0c;当你输入一句话想要翻译的时候&＃xff0c;会搜索相类似的语句&＃xff0c;然后替换不一样的词汇翻译。举个例子&＃xff1a;

I gave zhangsan a pen I gave lisi a apple

就可以抽取他们相似的部分&＃xff0c;直接替换不一样的地方的词汇就行。这种翻译其实效果不太好&＃xff0c;而且太偏领域背景...

基于神经网络的机器翻译

在深度学习火起来后&＃xff0c;这种方式越来越受关注。我们先来了解下什么是神经网络&＃xff1a;

基本的意思就是我们会有很多的输入&＃xff0c;这些输入经过一些中间处理&＃xff0c;得到输出。得到的输出又可以作为下一个计算过程的输入...这样就组成了神经网络。

在机器翻译中主要使用的是循环神经网络&＃xff0c;即上一次的输出可以作为这次的输入继续参与计算。这样有什么目的呢&＃xff1f;

就是在翻译的过程中&＃xff0c;虽然是以句子为单位进行翻译的&＃xff0c;但是每一句话都会对下一句话的翻译产生影响&＃xff0c;这样就做出了上下文的感觉....比如do chicken单纯的翻译有很多中翻译的结果。但是如果前面出现过厨师等这类的词句&＃xff0c;那么这个单词就可以更倾向翻译成烹饪鸡。

这种操作模式&＃xff0c;在问答系统中也会遇到...之后会有所介绍.

总结

总结的来说&＃xff0c;如果想要快速搭建一个机器翻译的系统&＃xff0c;可以先从基于规则开始&＃xff0c;添加一些领域背景的知识&＃xff0c;就能达到一个比较快速的效果。而基于统计的方法从数据获取的成本和模型的训练来说&＃xff0c;成本都很高...

针对机器翻译是否能代替人工翻译&＃xff0c;知乎上面也有不少讨论&＃xff0c;我这个门外汉也觉得&＃xff0c;暂时不太可能&＃xff0c;不过机器翻译作为人工翻译的一种辅助手段还是很必要的。比如那些非专业的翻译人士&＃xff0c;如写论文的研究生、看前沿技术的程序员小朋友&＃xff0c;这种机器翻译可以作为一种很有效的阅读辅助的手段&＃xff0c;因为大部分的时候&＃xff0c;都是直接把某一段英文粘贴到翻译的输入框&＃xff0c;然后按照翻译出来的结果&＃xff0c;自己再组织理解...&＃xff08;我想大部分人都是这么用的吧~ 原谅我英语差&＃xff09;

那么机器翻译的扫盲就暂时介绍到这里了&＃xff0c;之后会再研究下情感分析相关的内容...

参考

基于规则的机器翻译系统&＃xff1a;https://wenku.baidu.com/view/50c979165901020207409c3a.html
基于统计的机器翻译&＃xff1a;https://wenku.baidu.com/view/8ca60c966137ee06eff918fc.html
机器翻译的流程&＃xff08;原理&＃xff09;是怎么样的&＃xff1f;&＃xff1a;https://www.zhihu.com/question/24588198
自然语言处理为什么从规则转到统计的方法&＃xff1f;&＃xff1a;https://www.zhihu.com/question/30748126

推荐阅读

ip
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
ip
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
ip
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
ip
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
ip
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
php
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
java
如何在jieba分词中加自定义词典_常见中文分词包比较

1jiebajieba.cut方法接受三个输入参数:需要分词的字符串；cut_all参数用来控制是否采用全模式；HMM参数用来控制是否使用HMM模型ji ... [详细]

蜡笔小新 2024-10-11 12:27:39
ip
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
ip
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
ip
理工科男女不容错过的神奇资源网站

十一长假即将结束，你的假期学习计划进展如何？无论你是在家中、思念家乡，还是身处异国他乡，理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档，能够帮助你在假期中高效学习和提升专业技能。 ... [详细]

蜡笔小新 2024-11-01 11:51:44
ip
超分辨率技术的全球研究进展与应用现状综述

本文综述了图像超分辨率（Super-Resolution, SR）技术在全球范围内的最新研究进展及其应用现状。超分辨率技术旨在从单幅或多幅低分辨率（Low-Resolution, LR）图像中恢复出高质量的高分辨率（High-Resolution, HR）图像。该技术在遥感、医疗成像、视频处理等多个领域展现出广泛的应用前景。文章详细分析了当前主流的超分辨率算法，包括基于传统方法和深度学习的方法，并探讨了其在实际应用中的优缺点及未来发展方向。 ... [详细]

蜡笔小新 2024-10-31 15:10:48
int
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
import
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
int
当人工智能（AI）撞上供应链

了解供应链简单来说，供应链涉及一系列旨在向最终用户提供产品或服务的步骤。企业组织及其供应商之间始终存在一个网络，来生产特定产品并将其交付给最终用户。该网络包括不同的活动、人员、实体 ... [详细]

蜡笔小新 2024-10-11 18:25:31

三毛2502858553

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章