当前位置: 开发笔记 > 编程语言 > 正文

最短编辑距离算法实现

作者：icrochildren1035_175 | 来源：互联网 | 2023-07-23 11:15

一，算法介绍在CS124课程的第一周提到求解两个字符串相似度的算法MinimumEditDistance（最短编辑距离）算法。该算法在NLP（自然语言处理）中也会用到。如何定义相似

一，算法介绍

在CS124课程的第一周提到求解两个字符串相似度的算法---Minimum Edit Distance（最短编辑距离）算法。该算法在NLP（自然语言处理）中也会用到。

如何定义相似度呢？任给两个字符串X 和Y，使用以下三种操作将字符串X 变到字符串Y ：①插入(Insert)操作；②删除操作（delete）；③替换操作(substitute)

比如字符串X="intention" ，字符串Y="execution"。从字符串X 转换成字符串Y 如下图所示：

技术分享

定义：插入操作的代价为1，删除操作的代价为1，替换操作的代价为2（称为： Levenshtein distance）。那么，"intention" 变成 "execution" 执行了三次替换，一次删除，一次插入。因此，总代价为8

而这个代价又称为编辑距离，用之来衡量两个字符串的相似程度。显然，若两个字符串越相似，则从一个字符串变到另一个字符串所需要的 “操作” 步骤就越少。

二，动态规则求解最短编辑距离

为什么能用动态规划来求解呢？?该问题可以分解成若干个子问题；?子问题之间具有重叠性（可“查表”），具体可参考一些动态规划的示例1，示例2.

假设字符串X的长度为n，字符串Y的长度为m，用d[n][m] 表示字符串X 转换成字符串Y 的最短编辑距离

定义 d[i][j] 表示字符串X的子串X[1...i] 转换成字符串Y 的子串 Y[1...j] 的最短编辑距离（这里的下标从1开始，不从0开始），有如下动态规划公式：

技术分享

要想从长度为 i 的源字符串X 转换成长度为 j 的目标字符串Y，有三种方式：

①先将源字符串X 的前 i-1 个字符 X[1...i-1] 转换成目标字符串Y[1...j]，然后再删除字符串X 的第 i 个字符source[i]

②先将源字符串X[1...j] 转换成目标字符串Y[1...j-1] ，然后再插入字符串Y的第 j 个字符 target[j]

③先将源字符串X[1...i-1] 转换成目标字符串Y[1...j-1]，然后源字符串中的第 i 个字符X[i] 替换为目标字符串的第 j 个字符 Y[j]

为什么只有上述三种方式呢？

因为我们是将源问题的求解，分解成若干个子问题的求解，子问题的规模比原问题要小1。源问题 X[1...i] 转换成 Y[1...j] 。比如，子问题是：先将X[1...i-1] 转换成 Y[1...j] ，...

结合前面定义的操作代价（删除和插入操作代价为1，替换操作为2），就是下面这个公式：

技术分享

解释一下为什么 if source[i]=target[j]时，替换的代价为0呢？if source[i]=target[j] 表明字符串X 的第 i 个字符串和字符串Y的第 j 个字符是相同的

要想将 X[1...i] 转换成 Y[1...j] ，对于第三种转换方式：先将源字符串X[1...i-1] 转换成目标字符串Y[1...j-1] ，既然：字符串X 的第 i 个字符串和字符串Y的第 j 个字符是相同的，那就相当于“自己替换自己”，或者说是不需要替换操作了嘛。这也是下面代码实现逻辑：

                if (source.charAt(i-1) == target.charAt(j-1)) {
                    dp[i][j] = dp[i - 1][j - 1];

三，代码实现

伪代码描述如下：

技术分享

JAVA实现：

 1 public class MinimumEditDistance {
 2 
 3     public static void main(String[] args) {
 4         MinimumEditDistance med = new MinimumEditDistance();
 5         String source = "execution";
 6         String target = "intention";
 7         int result = med.similarDegree(source, target);
 8         System.out.println(result);
 9     }
10 
11     public int similarDegree(String source, String target) {
12         if(source == null || target == null)
13             throw new IllegalArgumentException("illegal input String");
14 
15         int sourceLen = source.length();
16         int targetLen = target.length();
17 
18         int[][] dp = new int[sourceLen + 1][targetLen +1];
19         //init
20         dp[0][0] = 0;
21         for(int i = 1; i <= sourceLen; i++)
22             dp[i][0] = i;
23         for(int i = 1; i <= targetLen; i++)
24             dp[0][i] = i;
25 
26         for(int i = 1; i <= sourceLen; i++) {
27             for(int j = 1; j <= targetLen; j++) {
28                 if (source.charAt(i-1) == target.charAt(j-1)) {
29                     dp[i][j] = dp[i - 1][j - 1];
30                 }else{
31                     int insert = dp[i][j - 1] + 1;//source[0,i] to target[0,j-1] then insert target[j]
32                     int delete = dp[i - 1][j] + 1;//source[0,i-1] to target[0,j] then delete source[i]
33                     int substitute = dp[i - 1][j - 1] + 2;//source[0,i-1] to target[0,j-1] then substitute(source[i] by target[j])
34 
35                     int min = min(insert, delete, substitute);
36                     dp[i][j] = min;
37                 }
38             }
39         }
40         return dp[sourceLen][targetLen];
41     }
42 
43     private int min(int insert, int delete, int substitute) {
44         int tmp = insert  insert:delete;
45         int min = tmp  tmp:substitute;
46         return min;
47     }
48 }

参考：Stanford CS124课程

原文：http://www.cnblogs.com/hapjin/p/7467035.html

最短编辑距离算法实现

推荐阅读

import
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
range
ASP.NET 中操作 Excel 的常见方法和属性

本文介绍了如何在 ASP.NET 中设置 Excel 单元格格式为文本，获取多个单元格区域并作为表头，以及进行单元格合并、赋值、格式设置等操作。 ... [详细]

蜡笔小新 2024-11-13 19:46:18
string
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
stream
[c++基础]STL

cppfig15_10.cppincludeincludeusingnamespacestd;templatevoidprintVector(constvector&integer ... [详细]

蜡笔小新 2024-11-13 13:22:43
import
Pythonmysql数据库

importpymysql#一、直接连接mysql数据库'''coonpymysql.connect(host'192.168.*.*',u ... [详细]

蜡笔小新 2024-11-12 16:51:59
filter
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
filter
解决Parallels Desktop错误15265的方法

本文详细介绍了在使用Parallels Desktop时遇到错误15265的多种解决方案，包括检查网络连接、关闭代理服务器和修改主机文件等步骤。 ... [详细]

蜡笔小新 2024-11-12 05:14:12
go
解决 Windows Server 2016 网络连接问题

本文详细介绍了如何解决 Windows Server 2016 在使用无线网络 (WLAN) 和有线网络 (以太网) 时遇到的连接问题。包括添加必要的功能和安装正确的驱动程序。 ... [详细]

蜡笔小新 2024-11-12 00:01:44
go
LDAP服务器配置与管理

本文介绍如何通过安装和配置SSSD服务来统一管理用户账户信息，并实现其他系统的登录调用。通过图形化交互界面配置LDAP服务器，确保用户账户信息的集中管理和安全访问。 ... [详细]

蜡笔小新 2024-11-13 18:19:52
go
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
controller
AngularJS $compile 详解

本文介绍了 AngularJS 中的 $compile 服务及其用法，通过示例代码展示了如何使用 $compile 动态编译和链接 HTML 元素。 ... [详细]

蜡笔小新 2024-11-13 15:34:47
controller
ZooKeeper 入门指南

本文将详细介绍ZooKeeper的工作机制、特点、数据结构以及常见的应用场景，包括统一命名服务、统一配置管理、统一集群管理、服务器动态上下线和软负载均衡。 ... [详细]

蜡笔小新 2024-11-13 13:11:46
go
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
string
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
go
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57

icrochildren1035_175

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章