热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

深入解析KMP算法在字符串匹配中的高效应用

本文深入探讨了KMP算法在字符串匹配中的高效应用,通过分析主字符串S与模式字符串T之间的匹配过程,详细阐述了如何在主字符串中快速定位模式字符串的首次出现位置,提高了字符串匹配的效率和准确性。

一个主字符串S,一个模式字符串T,要求在主字符串中匹配模式字符串,匹配成功则返回主字符串中和模式字符串匹配成功的第一个字符的位置,否则返回-1。

字符串匹配简单算法

一个简单的算法思路为:从主串的第pos个字符起和模式串中的第一个字符比较,若相等,则继续比较下一个字符;若某一个字符不相等,则从主串的pos+1个字符起和模式串中的第一个字符再重新比较,依此类推。若成功则返回第一个字符的位置,否则返回-1.
代码如下:

#include
#include
using namespace std;
int index_bf(string S,string T,int pos)
{int i &#61; pos;int j &#61; 0;int size_S &#61; S.size ();int size_T &#61; T.size ();while(i-j&#43;size_T <&#61; size_S && j!&#61;size_T){if(S[i]&#61;&#61;T[j]){i&#43;&#43;;j&#43;&#43;;}else{i&#61;i-j&#43;1;j&#61;0;}}if(j&#61;&#61;size_T)return i-j;elsereturn -1;
}int main()
{string S &#61; "abcabcabdabba";string T &#61; "abcabd";int pos &#61; index_bf(S,T,0);cout<return 0;
}

匹配的过程如下&#xff1a;
第一轮&#xff1a;
这里写图片描述

第二轮&#xff1a;
这里写图片描述

第三轮&#xff1a;
这里写图片描述

第四轮&#xff1a;
这里写图片描述
第四轮匹配成功&#xff0c;函数返回匹配成功的第一个字符的下标&#xff0c;即3.

在这个算法中&#xff0c;只要某次匹配不成功&#xff0c;则T的下标j需要回溯到0&#xff0c;而S的下标i也回溯同样的距离&#xff0c;然后S的下标i加1&#xff0c;从而再次开始匹配。这是一种效率较低的做法&#xff0c;一种改进的算法是KMP算法。



KMP算法

在KMP算法中&#xff0c;当某次匹配过程中出现不等时&#xff0c;不需要回溯指针i&#xff0c;而是利用已经得到的部分匹配的结果将字符串向右“滑动”尽量远的一段距离&#xff0c;继续进行比较。
如上面的例子&#xff0c;当第一次匹配到i&#61;5&#xff0c;j&#61;5时&#xff0c;出现不等&#xff0c;S的下标不需要回溯到1&#xff0c;j的下标也不需要回溯到0&#xff0c;而是i继续保持5&#xff0c;j的值变为2&#xff08;因为next[5]&#61;2&#xff09;&#xff0c;比较S[5]和T[2]。

这里写图片描述

该算法的一个关键是next函数值。
next函数值的定义为&#xff1a;
1&#xff09;next[0]&#61; -1
任何串的第一个字符的模式值规定为-1

2&#xff09;next[j]&#61; -1
模式串T中下标为j的字符&#xff0c;如果与首字符相同&#xff0c;且j的前面的1—k个字符与开头的1—k个字符不等&#xff08;或者相等但T[k]&#61;&#61;T[j]&#xff09;&#xff08;1 ≤ k

3&#xff09;next[j]&#61;k
模式串T中下标为j的字符&#xff0c;如果j的前面k个字符与开头的k个字符相等&#xff0c;且T[j] !&#61; T[k] &#xff08;1 ≤ k

4&#xff09;next[j]&#61;0
剩下的其他情况。

next各值的含义&#xff1a;
假设在字符串S中查找模式串T&#xff0c;若S[m]!&#61;T[n]&#xff0c;则查看T[n]的模式函数值next[n]&#xff1a;
1&#xff09;next[n]&#61; -1 表示S[m]和T[0]间接比较过了&#xff0c;不相等&#xff0c;下一次比较 S[m&#43;1] 和T[0]
2&#xff09;next[n]&#61;0 表示比较过程中产生了不相等&#xff0c;下一次比较 S[m] 和T[0]。
3&#xff09;next[n]&#61; k &#xff08;0

next函数值的求取只与模式串有关&#xff0c;程序如下&#xff1a;

void get_next(const string T, int * next)
{int j &#61; 0;int k &#61; -1;next[0] &#61; -1;int len&#61;T.size ();while( j <len-1 ){if (k &#61;&#61; -1 || T[j] &#61;&#61; T[k]){&#43;&#43;j;&#43;&#43;k;if (T[j]!&#61;T[k])next[j] &#61; k;elsenext[j] &#61; next[k];}elsek &#61; next[k];}
}

获得next函数值后&#xff0c;就可以根据next的值来进行字符串匹配

int KMP(const string S,const string T)
{int tlen &#61; T.size ();int slen &#61; S.size ();int *next&#61;new int[tlen];get_next(T,next); //next函数值int index&#61;0,i&#61;0,j&#61;0;while(iif(S[i]&#61;&#61; T[j]){&#43;&#43;i; //继续比较后继字符&#43;&#43;j;}else{index &#43;&#61; j-next[j];if(next[j]!&#61;-1)j&#61;next[j]; //模式串向右移动else{j&#61;0;&#43;&#43;i;}}} delete[] next;if(j&#61;&#61;tlen)return index; //匹配成功elsereturn -1;
}

综合上面的程序&#xff0c;为&#xff1a;

#include
#include
using namespace std;void get_next(const string T, int * next)
{int j &#61; 0;int k &#61; -1;next[0] &#61; -1;int len&#61;T.size ();while( j 1 ){if (k &#61;&#61; -1 || T[j] &#61;&#61; T[k]){&#43;&#43;j;&#43;&#43;k;if (T[j]!&#61;T[k])next[j] &#61; k;elsenext[j] &#61; next[k];}elsek &#61; next[k];}
}int KMP(const string S,const string T)
{int tlen &#61; T.size ();int slen &#61; S.size ();int *next&#61;new int[tlen];get_next(T,next); //求next函数值int index&#61;0,i&#61;0,j&#61;0;while(iif(S[i]&#61;&#61; T[j]){&#43;&#43;i; //继续比较后继字符&#43;&#43;j;}else{index &#43;&#61; j-next[j];if(next[j]!&#61;-1)j&#61;next[j]; //模式串向右移动else{j&#61;0;&#43;&#43;i;}}} delete[] next;if(j&#61;&#61;tlen)return index; //匹配成功elsereturn -1;
}int main()
{string S &#61; "abcabcabdabba";string T &#61; "abcabd";int pos &#61; KMP(S,T);cout<return 0;
}

参考整理自&#xff1a;http://blog.csdn.net/lin_bei/article/details/1252686


推荐阅读
  • 题目描述:给定n个半开区间[a, b),要求使用两个互不重叠的记录器,求最多可以记录多少个区间。解决方案采用贪心算法,通过排序和遍历实现最优解。 ... [详细]
  • 本文详细探讨了KMP算法中next数组的构建及其应用,重点分析了未改良和改良后的next数组在字符串匹配中的作用。通过具体实例和代码实现,帮助读者更好地理解KMP算法的核心原理。 ... [详细]
  • 题目Link题目学习link1题目学习link2题目学习link3%%%受益匪浅!-----&# ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
  • 扫描线三巨头 hdu1928hdu 1255  hdu 1542 [POJ 1151]
    学习链接:http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想,后期可以求解很 ... [详细]
  • 本文探讨了如何在给定整数N的情况下,找到两个不同的整数a和b,使得它们的和最大,并且满足特定的数学条件。 ... [详细]
  • 本文探讨了 C++ 中普通数组和标准库类型 vector 的初始化方法。普通数组具有固定长度,而 vector 是一种可扩展的容器,允许动态调整大小。文章详细介绍了不同初始化方式及其应用场景,并提供了代码示例以加深理解。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 本题探讨了一种字符串变换方法,旨在判断两个给定的字符串是否可以通过特定的字母替换和位置交换操作相互转换。核心在于找到这些变换中的不变量,从而确定转换的可能性。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 深入解析Spring Cloud Ribbon负载均衡机制
    本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]
  • C++: 实现基于类的四面体体积计算
    本文介绍如何使用C++编程语言,通过定义类和方法来计算由四个三维坐标点构成的四面体体积。文中详细解释了四面体体积的数学公式,并提供了两种不同的实现方式。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • UNP 第9章:主机名与地址转换
    本章探讨了用于在主机名和数值地址之间进行转换的函数,如gethostbyname和gethostbyaddr。此外,还介绍了getservbyname和getservbyport函数,用于在服务器名和端口号之间进行转换。 ... [详细]
author-avatar
布丁可爱_997
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有