热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

最短编辑距离算法实现

一,算法介绍在CS124课程的第一周提到求解两个字符串相似度的算法MinimumEditDistance(最短编辑距离)算法。该算法在NLP(自然语言处理)中也会用到。如何定义相似

一,算法介绍

在CS124课程的第一周提到 求解两个字符串相似度的算法---Minimum Edit Distance(最短编辑距离)算法。该算法在NLP(自然语言处理)中也会用到。

如何定义相似度呢?任给两个字符串X 和Y,使用以下三种操作将 字符串X 变到 字符串Y  :①插入(Insert)操作;②删除操作(delete);③替换操作(substitute)

比如 字符串X="intention" ,  字符串Y="execution"。从字符串X 转换成 字符串Y 如下图所示:

技术分享

定义:插入操作的代价为1,删除操作的代价为1,替换操作的代价为2(称为: Levenshtein distance)。那么,"intention"  变成  "execution" 执行了三次替换,一次删除,一次插入。因此,总代价为8

而这个代价又称为编辑距离, 用之来 衡量 两个字符串的相似程度。显然,若两个字符串越相似,则从一个字符串变到另一个字符串所需要的 “操作” 步骤 就越少。

二,动态规则求解最短编辑距离

为什么能用动态规划来求解呢??该问题可以分解成若干个子问题;?子问题之间具有重叠性(可“查表”),具体可参考一些动态规划的示例1,示例2.

假设字符串X的长度为n,字符串Y的长度为m,用d[n][m] 表示 字符串X 转换成 字符串Y 的最短编辑距离

定义 d[i][j] 表示 字符串X的子串X[1...i]   转换成 字符串Y 的子串 Y[1...j] 的最短编辑距离(这里的 下标从1开始,不从0开始),有如下动态规划公式:

技术分享

要想从 长度为 i 的源字符串X 转换成 长度为 j 的目标字符串Y,有三种方式:

①先将 源字符串X 的前 i-1 个字符 X[1...i-1] 转换成 目标字符串Y[1...j], 然后再 删除字符串X 的第 i 个字符source[i]

②先将 源字符串X[1...j] 转换成 目标字符串Y[1...j-1] ,然后再 插入字符串Y的第 j 个字符 target[j] 

③先将 源字符串X[1...i-1] 转换成 目标字符串Y[1...j-1],然后 源字符串中的 第 i 个字符X[i] 替换为 目标字符串的第 j 个字符 Y[j]

为什么 只有上述三种方式呢?

因为我们是将 源问题 的求解,分解成若干个子问题的求解,子问题的规模比原问题要小1。源问题 X[1...i]  转换成 Y[1...j]  。比如,子问题是:先将X[1...i-1] 转换成 Y[1...j] ,...

结合前面定义的 操作代价(删除和插入操作代价为1,替换操作为2),就是下面这个公式:

技术分享

解释一下为什么 if source[i]=target[j]时,替换的 代价为0呢?if source[i]=target[j] 表明 字符串X 的第 i 个字符串 和 字符串Y的第 j 个字符是相同的

要想将 X[1...i] 转换成 Y[1...j] ,对于第三种转换方式:先将 源字符串X[1...i-1] 转换成 目标字符串Y[1...j-1] ,既然:字符串X 的第 i 个字符串 和 字符串Y的第 j 个字符是相同的,那就相当于“自己替换自己”,或者说是 不需要替换操作了嘛。这也是下面代码实现逻辑:

                if (source.charAt(i-1) == target.charAt(j-1)) {
                    dp[i][j] = dp[i - 1][j - 1];

三,代码实现

伪代码描述如下:

技术分享

JAVA实现:

 1 public class MinimumEditDistance {
 2 
 3     public static void main(String[] args) {
 4         MinimumEditDistance med = new MinimumEditDistance();
 5         String source = "execution";
 6         String target = "intention";
 7         int result = med.similarDegree(source, target);
 8         System.out.println(result);
 9     }
10 
11     public int similarDegree(String source, String target) {
12         if(source == null || target == null)
13             throw new IllegalArgumentException("illegal input String");
14 
15         int sourceLen = source.length();
16         int targetLen = target.length();
17 
18         int[][] dp = new int[sourceLen + 1][targetLen +1];
19         //init
20         dp[0][0] = 0;
21         for(int i = 1; i <= sourceLen; i++)
22             dp[i][0] = i;
23         for(int i = 1; i <= targetLen; i++)
24             dp[0][i] = i;
25 
26         for(int i = 1; i <= sourceLen; i++) {
27             for(int j = 1; j <= targetLen; j++) {
28                 if (source.charAt(i-1) == target.charAt(j-1)) {
29                     dp[i][j] = dp[i - 1][j - 1];
30                 }else{
31                     int insert = dp[i][j - 1] + 1;//source[0,i] to target[0,j-1] then insert target[j]
32                     int delete = dp[i - 1][j] + 1;//source[0,i-1] to target[0,j] then delete source[i]
33                     int substitute = dp[i - 1][j - 1] + 2;//source[0,i-1] to target[0,j-1] then substitute(source[i] by target[j])
34 
35                     int min = min(insert, delete, substitute);
36                     dp[i][j] = min;
37                 }
38             }
39         }
40         return dp[sourceLen][targetLen];
41     }
42 
43     private int min(int insert, int delete, int substitute) {
44         int tmp = insert  insert:delete;
45         int min = tmp  tmp:substitute;
46         return min;
47     }
48 }

参考:Stanford CS124课程

原文:http://www.cnblogs.com/hapjin/p/7467035.html

最短编辑距离算法实现


推荐阅读
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 后台获取视图对应的字符串
    1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注:不会执行对应的ac ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文讨论了如何优化解决hdu 1003 java题目的动态规划方法,通过分析加法规则和最大和的性质,提出了一种优化的思路。具体方法是,当从1加到n为负时,即sum(1,n)sum(n,s),可以继续加法计算。同时,还考虑了两种特殊情况:都是负数的情况和有0的情况。最后,通过使用Scanner类来获取输入数据。 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 动态规划算法的基本步骤及最长递增子序列问题详解
    本文详细介绍了动态规划算法的基本步骤,包括划分阶段、选择状态、决策和状态转移方程,并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中,在以后尽可能多地利用这些子问题的解,从而提高算法的效率。 ... [详细]
author-avatar
icrochildren1035_175
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有