字符串匹配RabinKarp算法讲解

作者： | 来源：互联网 | 2023-10-16 20:38

问题描述：Rabin-Karp的预处理时间是O(m)，匹配时间O((n-m1)m)既然与朴素算法的匹配时间一样，而且还多了一些预处理时间&

问题描述&＃xff1a;

Rabin-Karp的预处理时间是O(m)&＃xff0c;匹配时间O( ( n - m &＃43; 1 ) m )既然与朴素算法的匹配时间一样&＃xff0c;而且还多了一些预处理时间&＃xff0c;那为什么我们还要学习这个算法呢&＃xff1f;虽然Rain-Karp在最坏的情况下与朴素匹配一样&＃xff0c;但是实际应用中往往比朴素算法快很多。而且该算法的期望匹配时间是O(n)【参照《算法导论》】&＃xff0c;但是Rabin-Karp算法需要进行数值运算&＃xff0c;速度必然不会比KMP算法快&＃xff0c;那我们有了KMP算法以后为什么还要学习Rabin-Karp算法呢&＃xff1f;个人认为学习的是一种思想&＃xff0c;一种解题的思路&＃xff0c;当我们见识的越多&＃xff0c;眼界也就也开阔&＃xff0c;面对实际问题的时候&＃xff0c;就能找到更加合适的算法。比如二维模式匹配&＃xff0c;Rabin-Karp就是一种好的选择。

而且Rabin-Karp算法非常有趣&＃xff0c;将字符当作数字来处理&＃xff0c;基本思路&＃xff1a;如果Tm是一个长度为 |P| 的T的子串&＃xff0c;且转换为数值后模上一个数&＃xff08;一般为素数&＃xff09;与模式字符串P转换成数值后模上同一个数的值相同&＃xff0c;则Tm可能是一个合法的匹配。

Rabin-Karp字符串匹配算法和前面介绍的《朴素字符串匹配算法》类似&＃xff0c;也是对应每一个字符进行比较&＃xff0c;不同的是Rabin-Karp采用了把字符进行预处理&＃xff0c;也就是对每个字符进行对应进制数并取模运算&＃xff0c;类似于通过某种函数计算其函数值&＃xff0c;比较的是每个字符的函数值。预处理时间O(m)&＃xff0c;匹配时间是O((n-m&＃43;1)m)。Rabin-Karp算法的思想&＃xff1a;假设待匹配字符串的长度为M&＃xff0c;目标字符串的长度为N&＃xff08;N>M&＃xff09;&＃xff1b;
首先计算待匹配字符串的hash值&＃xff0c;计算目标字符串前M个字符的hash值&＃xff1b;
比较前面计算的两个hash值&＃xff0c;比较次数N-M&＃43;1&＃xff1a;
若hash值不相等&＃xff0c;则继续计算目标字符串的下一个长度为M的字符子串的hash值
若hash值相同&＃xff0c;则需要使用朴素算法再次判断是否为相同的字串&＃xff1b;

We can compute p in time O(m) using Horner&＃39;s rule (see Section 32.1):

p &＃61; P[m] &＃43; 10 (P[m - 1] &＃43; 10(P[m - 2] &＃43; . . . &＃43; 10(P[2] &＃43; 10P[1]) . . . )).
The value t0 can be similarly computed from T[1 . . m] in time O(m).To compute the remaining values t1, t2, . . . , tn-m in time O(n - m), it suffices to observe that ts &＃43; 1 can be computed from ts in constant time, sincets &＃43; 1 &＃61; 10(ts - 10m - 1T[s &＃43; 1]) &＃43; T[s &＃43; m &＃43; 1].(34.1)
For example, if m&＃61; 5 and ts &＃61; 31415, then we wish to remove the high-order digit T[s &＃43; 1] &＃61; 3 and bring in the new low-order digit (suppose it is T[s &＃43; 5 &＃43; 1] &＃61; 2) to obtaints&＃43;1 &＃61; 10(31415 - 10000.3) &＃43; 2&＃61; 14152 .

http://net.pku.edu.cn/~course/cs101/2007/resource/Intro2Algorithm/book6/chap34.htm

以上算法很简单&＃xff0c;但是当模式字符串P的长度达到7以后就要出错了&＃xff0c;即使将t&＃xff0c;p定义为long unsigned int型也解决不了大问题&＃xff0c;也就是说上面代码没什么用。

　　其中b是基数&＃xff0c;相当于把字符串看作b进制数。这样&＃xff0c;字符串S&＃61;s1s2s3...sn从位置k&＃43;1开始长度为m的字符串子串S[k&＃43;1...k&＃43;m]的哈希值&＃xff0c;就可以利用从位置k开始的字符串子串S[k...k&＃43;m-1]的哈希值&＃xff0c;直接进行如下计算&＃xff1a;H(S[k&＃43;1...k&＃43;m])&＃61;&＃xff08;H(S[k...k&＃43;m-1]&＃xff09;* b - sk*b^m &＃43; s(k&＃43;m)&＃xff09; mod h

该算法的难点就在于p和t的值可能很大&＃xff0c;导致不能方便的对其进行处理。对这个问题有一个简单的补救办法&＃xff0c;用一个合适的数q来计算p和t的模。每个字符其实十一个十进制的整数&＃xff0c;所以p&＃xff0c;t以及递归式都可以对模q进行&＃xff0c;所以可以在O(m)的时间里计算出模q的p值&＃xff0c;在O&＃xff08;n - m &＃43; 1&＃xff09;时间内计算出模q的所有t值。参见《算法导论》或http://net.pku.edu.cn/~course/cs101/2007/resource/Intro2Algorithm/book6/chap34.htm

递推式是如下这个式子&＃xff1a;

ts&＃43;1 &＃61; (d ( ts-T[s &＃43; 1]h) &＃43; T[s &＃43; m &＃43; 1 ] ) mod q

例如&＃xff0c;如果d &＃61; 10 &＃xff08;十进制&＃xff09;m&＃61; 5, ts &＃61; 31415,我们希望去掉最高位数字T[s &＃43; 1] &＃61; 3,再加入一个低位数字&＃xff08;假定 T[s&＃43;5&＃43;1] &＃61; 2)就得到&＃xff1a;

ts&＃43;1 &＃61; 10(31415 - 10003) &＃43;2 &＃61; 14152

于是&＃xff0c;只要不断这样计算开始位置右移一位后的字符串子串的哈希值&＃xff0c;就可以在O&＃xff08;n&＃xff09;时间内得到所有位置对应的哈希值&＃xff0c;从而可以在O&＃xff08;n&＃43;m&＃xff09;时间内完成字符串匹配。在实现时&＃xff0c;可以用64位无符号整数计算哈希值&＃xff0c;并取h等于2^64&＃xff0c;通过自然溢出省去求模运算。

typedef unsigned long long ull;
const ull b&＃61;100000007;//哈希的基数&＃xff1b;
//a是否在b中出现
bool contain(string C,string S)
{int m&＃61;C.length(),n&＃61;S.length();if(m>n) return false;//计算b的m次方ull t&＃61;1;for(int i&＃61;0;ib;//计算C和S长度为m的前缀对应的哈希值ull Chash&＃61;0,Shash&＃61;0;for(int i&＃61;0;iC[i];for(int i&＃61;0;iS[i];//对S不断右移一位&＃xff0c;更新哈希值并判断for(int i&＃61;0;i&＃43;m<&＃61;n;i&＃43;&＃43;){if(Chash&＃61;&＃61;Shash) return true;//S从位置i开始长度为m的字符串子串等于C&＃xff1b;if(i&＃43;mm];}return false;
}

滚动哈希&＃xff08;Rabin-Karp算法&＃xff09;

hash( txt[s&＃43;1 .. s&＃43;m] ) &＃61; ( d ( hash( txt[s .. s&＃43;m-1]) – txt[s]*h ) &＃43; txt[s &＃43; m] ) mod q

hash( txt[s .. s&＃43;m-1] ) : Hash value at shift s.
hash( txt[s&＃43;1 .. s&＃43;m] ) : Hash value at next shift (or shift s&＃43;1)
d: Number of characters in the alphabet
q: A prime number
h: d^(m-1)

/* Following program is a C implementation of Rabin Karp
Algorithm given in the CLRS book */
#include
#include<string.h>// d is the number of characters in the input alphabet
#define d 256/* pat -> patterntxt -> textq -> A prime number
*/
void search(char pat[], char txt[], int q)
{int M &＃61; strlen(pat);int N &＃61; strlen(txt);int i, j;int p &＃61; 0; // hash value for patternint t &＃61; 0; // hash value for txtint h &＃61; 1;// The value of h would be "pow(d, M-1)%q"for (i &＃61; 0; i 1; i&＃43;&＃43;)h &＃61; (h*d)%q;// Calculate the hash value of pattern and first// window of textfor (i &＃61; 0; i ){p &＃61; (d*p &＃43; pat[i])%q;t &＃61; (d*t &＃43; txt[i])%q;}// Slide the pattern over text one by onefor (i &＃61; 0; i <&＃61; N - M; i&＃43;&＃43;){// Check the hash values of current window of text// and pattern. If the hash values match then only// check for characters on by oneif ( p &＃61;&＃61; t ){/* Check for characters one by one */for (j &＃61; 0; j ){if (txt[i&＃43;j] !&＃61; pat[j])break;}// if p &＃61;&＃61; t and pat[0...M-1] &＃61; txt[i, i&＃43;1, ...i&＃43;M-1]if (j &＃61;&＃61; M)printf("Pattern found at index %d \n", i);}// Calculate hash value for next window of text: Remove// leading digit, add trailing digitif ( i M ){t &＃61; (d*(t - txt[i]*h) &＃43; txt[i&＃43;M])%q;// We might get negative value of t, converting it// to positiveif (t <0)t &＃61; (t &＃43; q);}}
}/* Driver program to test above function */
int main()
{char txt[] &＃61; "GEEKS FOR GEEKS";char pat[] &＃61; "GEEK";int q &＃61; 101; // A prime number
search(pat, txt, q);return 0;
}

参考资料&＃xff1a;http://www.geeksforgeeks.org/archives/11937

参考资料&＃xff1a;http://net.pku.edu.cn/~course/cs101/2007/resource/Intro2Algorithm/book6/chap34.htm

http://www.cnblogs.com/feature/articles/1813967.html &＃xff08;翻译PKU

转:https://www.cnblogs.com/Roni-i/p/9447409.html

推荐阅读

int
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
int
GWT PopupPanel onKeyDownPreview 方法详解与实例

本文详细介绍了 GWT 中 PopupPanel 类的 onKeyDownPreview 方法，提供了多个代码示例及应用场景，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:07:27
settings
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
int
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
int
RecyclerView初步学习(一)

RecyclerView初步学习(一)ReCyclerView提供了一种插件式的编程模式，除了提供ViewHolder缓存模式，还可以自定义动画，分割符，布局样式，相比于传统的ListVi ... [详细]

蜡笔小新 2024-12-26 20:24:01
int
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
int
Weight the Tree（树形dp）

题目Link题目学习link1题目学习link2题目学习link3%%%受益匪浅！－－－－－&# ... [详细]

蜡笔小新 2024-12-26 15:55:56
int
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
io
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
int
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
io
HTML Attribute Naming Conventions for Fast Components

This document outlines the recommended naming conventions for HTML attributes in Fast Components, focusing on readability and consistency with existing standards. ... [详细]

蜡笔小新 2024-12-26 19:13:45
int
解析Java中Text.splitText()方法及其应用场景

本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法，通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点，并保持在文档树中。 ... [详细]

蜡笔小新 2024-12-26 18:31:42
int
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
int
深入解析 SimpleDraweeView 的 setScaleType 方法及其实现

本文详细介绍了 com.facebook.drawee.view.SimpleDraweeView 中的 setScaleType 方法，提供了多个实际代码示例，并解释了其在不同场景下的应用。 ... [详细]

蜡笔小新 2024-12-26 12:15:47
int
深入解析 org.apache.xmlbeans.SchemaType.getBaseEnumType() 方法及其应用

本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法，提供了多个代码示例，并解释了其在不同场景下的使用方法。 ... [详细]

蜡笔小新 2024-12-26 11:46:55

Tags | 热门标签

RankList | 热门文章

字符串匹配RabinKarp算法讲解

ts&＃43;1 &＃61; (d *( ts-T[s &＃43; 1]*h) &＃43; T[s &＃43; m &＃43; 1 ] ) mod q

ts&＃43;1 &＃61; 10*(31415 - 1000*3) &＃43;2 &＃61; 14152

ts&＃43;1 &＃61; (d ( ts-T[s &＃43; 1]h) &＃43; T[s &＃43; m &＃43; 1 ] ) mod q

ts&＃43;1 &＃61; 10(31415 - 10003) &＃43;2 &＃61; 14152