热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

深入解析KMP算法在字符串匹配中的高效应用

本文深入探讨了KMP算法在字符串匹配中的高效应用,通过分析主字符串S与模式字符串T之间的匹配过程,详细阐述了如何在主字符串中快速定位模式字符串的首次出现位置,提高了字符串匹配的效率和准确性。

一个主字符串S,一个模式字符串T,要求在主字符串中匹配模式字符串,匹配成功则返回主字符串中和模式字符串匹配成功的第一个字符的位置,否则返回-1。

字符串匹配简单算法

一个简单的算法思路为:从主串的第pos个字符起和模式串中的第一个字符比较,若相等,则继续比较下一个字符;若某一个字符不相等,则从主串的pos+1个字符起和模式串中的第一个字符再重新比较,依此类推。若成功则返回第一个字符的位置,否则返回-1.
代码如下:

#include
#include
using namespace std;
int index_bf(string S,string T,int pos)
{int i &#61; pos;int j &#61; 0;int size_S &#61; S.size ();int size_T &#61; T.size ();while(i-j&#43;size_T <&#61; size_S && j!&#61;size_T){if(S[i]&#61;&#61;T[j]){i&#43;&#43;;j&#43;&#43;;}else{i&#61;i-j&#43;1;j&#61;0;}}if(j&#61;&#61;size_T)return i-j;elsereturn -1;
}int main()
{string S &#61; "abcabcabdabba";string T &#61; "abcabd";int pos &#61; index_bf(S,T,0);cout<return 0;
}

匹配的过程如下&#xff1a;
第一轮&#xff1a;
这里写图片描述

第二轮&#xff1a;
这里写图片描述

第三轮&#xff1a;
这里写图片描述

第四轮&#xff1a;
这里写图片描述
第四轮匹配成功&#xff0c;函数返回匹配成功的第一个字符的下标&#xff0c;即3.

在这个算法中&#xff0c;只要某次匹配不成功&#xff0c;则T的下标j需要回溯到0&#xff0c;而S的下标i也回溯同样的距离&#xff0c;然后S的下标i加1&#xff0c;从而再次开始匹配。这是一种效率较低的做法&#xff0c;一种改进的算法是KMP算法。



KMP算法

在KMP算法中&#xff0c;当某次匹配过程中出现不等时&#xff0c;不需要回溯指针i&#xff0c;而是利用已经得到的部分匹配的结果将字符串向右“滑动”尽量远的一段距离&#xff0c;继续进行比较。
如上面的例子&#xff0c;当第一次匹配到i&#61;5&#xff0c;j&#61;5时&#xff0c;出现不等&#xff0c;S的下标不需要回溯到1&#xff0c;j的下标也不需要回溯到0&#xff0c;而是i继续保持5&#xff0c;j的值变为2&#xff08;因为next[5]&#61;2&#xff09;&#xff0c;比较S[5]和T[2]。

这里写图片描述

该算法的一个关键是next函数值。
next函数值的定义为&#xff1a;
1&#xff09;next[0]&#61; -1
任何串的第一个字符的模式值规定为-1

2&#xff09;next[j]&#61; -1
模式串T中下标为j的字符&#xff0c;如果与首字符相同&#xff0c;且j的前面的1—k个字符与开头的1—k个字符不等&#xff08;或者相等但T[k]&#61;&#61;T[j]&#xff09;&#xff08;1 ≤ k

3&#xff09;next[j]&#61;k
模式串T中下标为j的字符&#xff0c;如果j的前面k个字符与开头的k个字符相等&#xff0c;且T[j] !&#61; T[k] &#xff08;1 ≤ k

4&#xff09;next[j]&#61;0
剩下的其他情况。

next各值的含义&#xff1a;
假设在字符串S中查找模式串T&#xff0c;若S[m]!&#61;T[n]&#xff0c;则查看T[n]的模式函数值next[n]&#xff1a;
1&#xff09;next[n]&#61; -1 表示S[m]和T[0]间接比较过了&#xff0c;不相等&#xff0c;下一次比较 S[m&#43;1] 和T[0]
2&#xff09;next[n]&#61;0 表示比较过程中产生了不相等&#xff0c;下一次比较 S[m] 和T[0]。
3&#xff09;next[n]&#61; k &#xff08;0

next函数值的求取只与模式串有关&#xff0c;程序如下&#xff1a;

void get_next(const string T, int * next)
{int j &#61; 0;int k &#61; -1;next[0] &#61; -1;int len&#61;T.size ();while( j <len-1 ){if (k &#61;&#61; -1 || T[j] &#61;&#61; T[k]){&#43;&#43;j;&#43;&#43;k;if (T[j]!&#61;T[k])next[j] &#61; k;elsenext[j] &#61; next[k];}elsek &#61; next[k];}
}

获得next函数值后&#xff0c;就可以根据next的值来进行字符串匹配

int KMP(const string S,const string T)
{int tlen &#61; T.size ();int slen &#61; S.size ();int *next&#61;new int[tlen];get_next(T,next); //next函数值int index&#61;0,i&#61;0,j&#61;0;while(iif(S[i]&#61;&#61; T[j]){&#43;&#43;i; //继续比较后继字符&#43;&#43;j;}else{index &#43;&#61; j-next[j];if(next[j]!&#61;-1)j&#61;next[j]; //模式串向右移动else{j&#61;0;&#43;&#43;i;}}} delete[] next;if(j&#61;&#61;tlen)return index; //匹配成功elsereturn -1;
}

综合上面的程序&#xff0c;为&#xff1a;

#include
#include
using namespace std;void get_next(const string T, int * next)
{int j &#61; 0;int k &#61; -1;next[0] &#61; -1;int len&#61;T.size ();while( j 1 ){if (k &#61;&#61; -1 || T[j] &#61;&#61; T[k]){&#43;&#43;j;&#43;&#43;k;if (T[j]!&#61;T[k])next[j] &#61; k;elsenext[j] &#61; next[k];}elsek &#61; next[k];}
}int KMP(const string S,const string T)
{int tlen &#61; T.size ();int slen &#61; S.size ();int *next&#61;new int[tlen];get_next(T,next); //求next函数值int index&#61;0,i&#61;0,j&#61;0;while(iif(S[i]&#61;&#61; T[j]){&#43;&#43;i; //继续比较后继字符&#43;&#43;j;}else{index &#43;&#61; j-next[j];if(next[j]!&#61;-1)j&#61;next[j]; //模式串向右移动else{j&#61;0;&#43;&#43;i;}}} delete[] next;if(j&#61;&#61;tlen)return index; //匹配成功elsereturn -1;
}int main()
{string S &#61; "abcabcabdabba";string T &#61; "abcabd";int pos &#61; KMP(S,T);cout<return 0;
}

参考整理自&#xff1a;http://blog.csdn.net/lin_bei/article/details/1252686


推荐阅读
  • 首先说一下,这是我在CSDN上的第一个文章,其实这个账号早在几年前就申请了,不过当时只是为了下载一个资源,而且也不怎么懂信息技术相关的领域,后来就再也没怎么动过,直到今天我才开始使用这个账号 ... [详细]
  • A题简单判断#includeusingnamespacestd;typedeflonglongll;intt;intmain(){cint;whil ... [详细]
  • C++编程基础:探索自定义数据类型
    本文继续深入C++编程的基础知识,重点讲解自定义数据类型的概念及其应用,包括枚举类型、结构体和联合体等。 ... [详细]
  • 0-1背包问题的两种解决方法:动态规划与回溯法
    本文探讨了0-1背包问题的两种主要解决方案——动态规划与回溯法,详细介绍了每种方法的实现逻辑、算法流程及具体示例。 ... [详细]
  • 本文由Jogis撰写,详细探讨了React中的组件设计模式,包括控制组件、非控制组件及混合模型组件,分析了各自的优缺点及其应用场景。 ... [详细]
  • Flutter入门指南:实现自动关闭的对话框与提示
    本文为Flutter系列教程的一部分,专注于讲解如何在Flutter应用中实现自动关闭的对话框和提示。通过具体的代码示例,帮助开发者掌握SnackBar、BottomSheet和Dialog的使用方法。 ... [详细]
  • 探索Arjun v1.3:高效挖掘HTTP参数的利器
    本文将详细介绍一款名为Arjun的开源安全工具,该工具能够帮助安全研究人员有效提取和分析HTTP参数。请注意,Arjun v1.3要求运行环境为Python 3.4及以上版本。 ... [详细]
  • 实现‘点击恢复’功能 - Tap-to-Resume Feature in SpriteKit
    了解如何在应用程序从非活动状态返回时,在SpriteKit游戏中添加一个‘点击恢复’的文字提示。 ... [详细]
  • 本文通过具体示例探讨了在 C++ 中使用 extern "C" 的重要性及其作用,特别是如何影响编译后的对象文件中的符号名称。 ... [详细]
  • 本文档提供了一个使用C语言进行字符串处理的示例,通过输入两个以加号分隔的数字字符串,并计算它们的和。 ... [详细]
  • 本文探讨了两种有效的方法来确定一组10个整数中的最大值,包括使用三目运算符和循环结构。 ... [详细]
  • 快速排序是基于分治策略的一种排序算法,其平均时间复杂度为O(n log n),在大多数情况下表现优于其他排序算法。本文将详细介绍快速排序的工作原理,并提供一个Java语言的具体实现。 ... [详细]
  • 本文介绍了如何利用Vue.js中的Axios库将数组数据发送至Laravel后端,并正确地将这些数据存储到数据库中。 ... [详细]
  • 本文介绍了一种利用迭代法解决特定方程问题的方法,特别是当给定函数f(x)在区间[x1, x2]内连续且f(x1)0时,存在一个x~使得f(x~)=0。通过逐步细化搜索范围,可以高效地找到方程的根。 ... [详细]
  • 本文探讨了如何在Django中创建一个能够根据需求选择不同模板的包含标签。通过自定义逻辑,开发者可以在多个模板选项中灵活切换,以适应不同的显示需求。 ... [详细]
author-avatar
布丁可爱_997
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有