字符串的模式匹配详解--BF算法与KMP算法

作者：Cindere丷lla_茹满 | 来源：互联网 | 2021-09-17 02:47

这篇文章记录一下串里面的模式匹配，模式匹配，顾名思义就是给定一个被匹配的字符串，然后用一个字符串模式（模型）去匹配上面说的字符串，看后者是否在前者里面出现。常用的有2种算法可以实现，下面我们来具体探讨下

一.BF算法
BF算法是普通的模式匹配算法，BF算法的思想就是将目标串S的第一个字符与模式串P的第一个字符进行匹配，若相等，则继续比较S的第二个字符和P的第二个字符；若不相等，则比较S的第二个字符和P的第一个字符，依次比较下去，直到得出最后的匹配结果。

举例说明：

  S: ababcababa
  P: ababa
　 BF算法匹配的步骤如下
      i=0                  i=1               i=2             i=3             i=4
 第一趟:ababcababa     第二趟:ababcababa   第三趟:ababcababa  第四趟:ababcababa  第五趟:ababcababa
       ababa              ababa             ababa            ababa            ababa
      j=0                  j=1              j=2             j=3             j=4(i和j回溯)
       i=1                 i=2              i=3              i=4            i=3
 第六趟:ababcababa     第七趟:ababcababa    第八趟:ababcababa   第九趟:ababcababa  第十趟:ababcababa
       ababa               ababa              ababa            ababa            ababa
       j=0                 j=0              j=1              j=2(i和j回溯)      j=0
       i=4                  i=5             i=6              i=7             i=8
第十一趟:ababcababa    第十二趟:ababcababa  第十三趟:ababcababa  第十四趟:ababcababa  第十五趟:ababcababa
           ababa                ababa              ababa             ababa             ababa
        j=0                  j=0             j=1              j=2             j=3
 
          i=9
第十六趟:ababcababa
            ababa
          j=4(匹配成功)

代码实现:

int BFMatch(char *s,char *p)
{
  int i,j;
  i=0;
  while(i

　其实在上面的匹配过程中，有很多比较是多余的。在第五趟匹配失败的时候，在第六趟，i可以保持不变，j值为2。因为在前面匹配的过程中，对于串S，已知s0s1s2s3=p0p1p2p3，又因为p0!=p1!，所以第六趟的匹配是多余的。又由于p0==p2,p1==p3，所以第七趟和第八趟的匹配也是多余的。在KMP算法中就省略了这些多余的匹配。

二.KMP算法

    KMP算法之所以叫做KMP算法是因为这个算法是由三个人共同提出来的，就取三个人名字的首字母作为该算法的名字。其实KMP算法与BF算法的区别就在于KMP算法巧妙的消除了指针i的回溯问题，只需确定下次匹配j的位置即可，使得问题的复杂度由O(mn)下降到O(m+n)。
　在KMP算法中，为了确定在匹配不成功时，下次匹配时j的位置，引入了next[]数组，next[j]的值表示P[0...j-1]中最长后缀的长度等于相同字符序列的前缀。
　对于next[]数组的定义如下：
　1) next[j] = -1 j = 0
　2) next[j] = max(k): 0 　3) next[j] = 0 其他
　如：
　P      a    b   a    b   a
　j      0    1   2    3   4
next    -1   0   0    1   2
　即next[j]=k>0时，表示P[0...k-1]=P[j-k,j-1]
　因此KMP算法的思想就是：在匹配过程称，若发生不匹配的情况，如果next[j]>=0，则目标串的指针i不变，将模式串的指针j移动到next[j]的位置继续进行匹配；若next[j]=-1，则将i右移1位，并将j置0，继续进行比较。
代码实现如下：

int KMPMatch(char *s,char *p)
{
  int next[100];
  int i,j;
  i=0;
  j=0;
  getNext(p,next);
  while(i

　　因此KMP算法的关键在于求算next[]数组的值，即求算模式串每个位置处的最长后缀与前缀相同的长度，而求算next[]数组的值有两种思路，第一种思路是用递推的思想去求算，还有一种就是直接去求解。
1.按照递推的思想：
   根据定义next[0]=-1，假设next[j]=k, 即P[0...k-1]==P[j-k,j-1]
   1)若P[j]==P[k]，则有P[0..k]==P[j-k,j]，很显然，next[j+1]=next[j]+1=k+1;
   2)若P[j]!=P[k]，则可以把其看做模式匹配的问题，即匹配失败的时候，k值如何移动，显然k=next[k]。
   因此可以这样去实现：

void getNext(char *p,int *next)
{
  int j,k;
  next[0]=-1;
  j=0;
  k=-1;
  while(j

2.直接求解方法

void getNext(char *p,int *next)
{
  int i,j,temp;
  for(i=0;i0;j--)
      {
        if(equals(p,i,j))
        {
          next[i]=j;  //找到最大的k值
          break;
        }
      }
      if(j==0)
        next[i]=0;
    }
  }
}
bool equals(char *p,int i,int j)   //判断p[0...j-1]与p[i-j...i-1]是否相等 
{
  int k=0;
  int s=i-j;
  for(;k<=j-1&&s<=i-1;k++,s++)
  {
    if(p[k]!=p[s])
      return false;
  }
  return true;
}

算法

推荐阅读

算法
Golomb 编码解析：利用零位标识商与余数的高效算法

Golomb 编码是一种高效的变长编码技术，专门用于整数的压缩。该方法通过预定义的参数 \( M \) 将输入整数分解为商 \( q \) 和余数 \( r \) 两部分。具体而言，输入整数除以 \( M \) 得到商 \( q \) 和余数 \( r \)，其中商 \( q \) 采用一元编码表示，而余数 \( r \) 则使用二进制编码。这种编码方式在数据压缩和信息传输中具有显著的优势，特别是在处理具有特定概率分布的数据时表现出色。 ... [详细]

蜡笔小新 2024-11-05 14:49:19
算法
如何快速掌握日柱推算技巧？解读大运、小运、流年与命宫的精准方法

大运是指人生各阶段的运势变化，通过命理学分析，可以预测个人在不同时间段的吉凶祸福。本文将详细介绍如何快速掌握日柱推算技巧，解读大运、小运、流年与命宫的精准方法，帮助读者更好地理解并运用这些命理知识，从而在关键时刻做出明智决策。 ... [详细]

蜡笔小新 2024-11-05 13:21:57
算法
高性能通信库 NanoMsg 框架详解与应用概述

本文详细解析了高性能通信库 NanoMsg 的框架及其应用场景。其中，BUS模式支持多对多的简单通信方式，消息会传递给所有直接连接的节点。REQREP模式则适用于构建无状态的服务集群，用于处理用户的请求，每个请求都需要一个相应的响应。 ... [详细]

蜡笔小新 2024-11-05 08:50:41
算法
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
算法
计算二叉树的直径：深入解析与优化算法

二叉树的直径是指树中任意两个叶节点之间最长路径上的节点数量。本文深入解析了计算二叉树直径的算法，并提出了一种优化方法，以提高计算效率和准确性。通过详细的案例分析和性能对比，展示了该优化算法在实际应用中的优势。 ... [详细]

蜡笔小新 2024-11-05 02:21:46
算法
YOLO目标检测技术在实际应用中的深入探索与实践

本文详细探讨了YOLO目标检测技术在实际应用中的实践与优化。通过一系列实战案例，展示了如何在不同场景下高效部署和调优YOLO模型。验证环境包括Ubuntu 18.04、NVIDIA驱动450、CUDA 11.0、cuDNN 8.0.5和OpenCV 4.4.0，确保了模型的稳定性和高性能表现。文章将持续更新，提供最新的技术进展和实践经验。 ... [详细]

蜡笔小新 2024-11-04 22:15:50
算法
利用 VTK Glyph3D 实现三维数据的符号化可视化

vtkGlyph3D 是一种强大的符号化可视化工具，能够将三维数据集中的每个点用预定义的几何图形（如球体或箭头）进行表示。该工具不仅支持自定义符号的方向和缩放比例，还能够在复杂的数据场中突出显示关键特征，从而提高数据的可解释性和可视化效果。通过这种方式，用户可以更直观地理解和分析三维数据集中的重要信息。 ... [详细]

蜡笔小新 2024-11-04 21:48:22
算法
Google 实验框架优化：实现更高效、更精准、更快速的测试

为了评估精心优化的模型与策略在实际环境中的表现，Google对其实验框架进行了全面升级，旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景，提供更好的数据洞察，并显著缩短了实验周期，从而加速产品迭代和优化过程。 ... [详细]

蜡笔小新 2024-11-04 21:02:34
算法
设计一种高效的数据结构与算法，用于存储和计算超出常规范围的超大整数加法运算...

本文提出了一种高效的数据结构与算法，旨在解决超大整数（超出常规 `long` 类型范围）的加法运算问题。通过引入自定义的数据结构，该方法能够有效地存储和处理任意大小的整数，并在保证计算精度的同时，显著提升运算效率。实验结果表明，该方法在处理大规模数据时表现出色，具有较高的实用价值。 ... [详细]

蜡笔小新 2024-11-04 20:29:14
算法
Java编程技巧：数组排序算法（冒泡排序与选择排序）、二分查找、Arrays类应用及进制转换、装箱与拆箱详解

本文详细介绍了Java编程中的几种重要技巧，包括冒泡排序和选择排序这两种基础的数组排序算法。冒泡排序通过多次遍历数组，将较大的元素逐步移动到数组末尾；而选择排序则在每次遍历中选择最小的元素并将其放置在正确的位置。此外，文章还探讨了二分查找算法，该算法适用于已排序的数组，能够高效地进行查找操作。同时，文中还介绍了Java中的`Arrays`类及其常用方法，以及如何进行进制转换和装箱与拆箱操作，提供了丰富的示例和注意事项，帮助读者深入理解这些核心概念。 ... [详细]

蜡笔小新 2024-11-04 18:50:06
算法
九度编程挑战：斐波那契数列的高效算法解析

本文详细解析了九度编程平台上的斐波那契数列高效算法挑战（题目编号：1387）。该挑战要求在1秒的时间限制和32兆的内存限制下，设计出高效的斐波那契数列计算方法。通过多种算法的对比和性能分析，本文提供了优化方案，帮助参赛者在限定资源条件下实现高效计算。 ... [详细]

蜡笔小新 2024-11-04 17:20:43
算法
解决Android应用在手机安装时出现安全风险提示的方法与对策

解决Android应用在手机安装时出现安全风险提示的方法与对策 ... [详细]

蜡笔小新 2024-11-04 16:43:58
算法
READ COMMITTED 和 REPEATABLE READ 事务隔离级别的对比与分析

在数据库事务处理中，InnoDB 存储引擎提供了多种隔离级别，其中 READ COMMITTED 和 REPEATABLE READ 是两个常用的选项。本文详细对比了这两种隔离级别的特点和差异，不仅从理论角度分析了它们对“脏读”和“幻读”的处理方式，还结合实际应用场景探讨了它们在并发控制和性能表现上的不同。特别关注了行锁机制在不同隔离级别下的行为，为开发者选择合适的隔离级别提供了参考。 ... [详细]

蜡笔小新 2024-11-04 16:00:44
算法
计算力扣平台上的汉明距离问题解析与优化算法

本文深入解析了计算力扣平台上汉明距离问题的官方解法，并通过优化算法提高了计算效率。具体而言，我们详细探讨了如何利用位运算技巧来高效计算数组中所有数对之间的汉明距离，从而在时间和空间复杂度上实现了显著改进。通过实例代码演示，使读者能够更直观地理解这一优化方法。 ... [详细]

蜡笔小新 2024-11-04 15:15:25
算法
设计模式详解：模板方法模式的应用与实现

模板方法模式是一种行为设计模式，通过定义一个操作中的算法骨架，将具体步骤的实现延迟到子类中。本文详细解析了模板方法模式的类图结构、实现方式以及挂钩机制，并结合实际案例进行了深入探讨。此外，文章还提供了丰富的参考资料，帮助读者更好地理解和应用这一设计模式。对于手机用户，建议横屏阅读以获得更佳的阅读体验。 ... [详细]

蜡笔小新 2024-11-04 14:01:18

Cindere丷lla_茹满

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章