热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

模式匹配:AC自动机

一、概述AC自动机在1975年产生于贝尔实验室,是著名的多模匹配算法之一。之前谈到一种单模式匹配算法,KMP。与之比较,KMP是用来在一

一、概述

AC自动机在1975年产生于贝尔实验室,是著名的多模匹配算法之一。
之前谈到一种单模式匹配算法,KMP。与之比较,KMP是用来在一篇文章中匹配一个模式串;而假如存在多个模式串,按照KMP的思路就需要进行多轮重复匹配,所以这时候就需要一种更加有效率的方式。

AC自动机 = 字典树 + KMP

对于字典树和KMP算法不了解的,可以参考以下两篇博文:
1、字典树
2、KMP算法


二、基本原理


1、KMP和字典树

之前谈到,在KMP进行单模式匹配时,只需要线性的扫描一遍文本串,在扫描过程中出现匹配失败时,可以根据失配表,对移动位置进行确定,继续进行匹配。
而多模式的匹配需要怎么进行呢?考虑一下字典树,这是一种多模式的匹配,假如将多个模式串组合形成一个字典树,再结和KMP算法,这就是一种多模式匹配的思路了。


2、基本构造

按照上面的思路,将模式串处理称为字典树,对文本串进行匹配时,AC自动机应该具有三种状态:


(1)按字符匹配成功,继续匹配

从字典树的角度来说,就是当前节点的字符与文本串的字符相同,则继续按照字典树路径进行匹配


(2)按字符匹配成功,到达结尾

同样这里匹配成功后,但已经达到结尾,匹配结束


(3)按字符匹配失败

正常字典树匹配失败,则匹配结束。但结合了KMP算法中的失配表,AC自动机在匹配失败时,会进行路径跳转,通过失配路径进行进行匹配,直到匹配成功或者回到根节点
这里的失配路径指向,实际上是在字典树中寻找,最长的当前字符串的后缀字符串


三、实例

以经典的ushers为例,模式串是[he、she、shr,say、her],文本串为‘ushers’


1、构建字典树

这里写图片描述


2、构造失配路径

这里写图片描述

步骤(1)节点'h'父节点为root节点,失配路径直接指向root节点步骤(2)节点's'父节点为root节点,失配路径直接指向root节点步骤(3)节点'e'父节点为'h',寻找节点'h'的前缀指针root节点,是否有字符为'e'的子节点,没有;前缀指针已为root节点,失配路径指向root节点步骤(4)节点'a'父节点为's',寻找节点's'的前缀指针root节点,是否有字符为'a'的子节点,没有;前缀指针已为root节点,失配路径指向root节点步骤(5)节点'h'父节点为's',寻找节点's'的前缀指针root节点,是否有字符为'h'的子节点,有;失配路径指向该字符为'h'的子节点步骤(6)节点'r'父节点为'e'节点,寻找节点'e'的前缀指针root节点,是否有字符为'r'的子节点,没有;前缀指针已为root节点,失配路径指向root节点步骤(7)节点'y'父节点为'a'节点,寻找节点'a'的前缀指针root节点,是否有字符为'y'的子节点,没有;前缀指针已为root节点,失配路径指向root节点步骤(8)节点'e'父节点为'h'节点,寻找节点'h'的前缀指针'h'节点,是否有字符为'e'的子节点,有;失配路径指向该字符为'e'的子节点步骤(9)节点'r'父节点为'h'节点,寻找节点'h'的前缀指针'h'节点,是否有字符为'r'的子节点,没有;继续寻找前缀指针节点'h'的前缀指针root节点,是否有字符为'r'的子节点,没有;

到这里,AC自动机的整个树就构造完毕了


3、匹配过程

自动从root节点出发,进行匹配,对于文本串‘ushers’:

(1)字符u在root节点的子节点无法找到,失配路径指向root节点(2)字符s在root节点的子节点中存在,沿着字典树路径前进,到达's'节点(3)字符h在's'节点的子节点中存在,沿着字典树路径前进,到达'h'节点(4)字符e在'h'节点的子节点中存在,沿着字典树路径前进,到达'e'节点,输出she字符(5)字符r在'e'节点的子节点中无法找到,失配路径指向前缀指针'e'节点;输出he字符字符r在前缀指针'e'节点中存在,沿着字典树路径前进,到达'r'节点,输出her字符(6)字符s在'r'节点的子节点中无法找到,失配路径指向root节点(7)匹配结束,输出字符为[she,he,her]

在上述步骤可以看到,算法在步骤5中,无法在子节点中找到字符r,此时会自动转向另一条路径,输出匹配成功的he及her字符;对于通过失配路径到达当前路径之后,状态机像从来没有走过之前的路径一样(从字典树上看,像直接从root节点出发到达),这样没有“失败”的从初始路径出发,直到匹配结束,体现相当高的效率。


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文介绍了闭包的定义和运转机制,重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则,闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • qt学习(六)数据库注册用户的实现方法
    本文介绍了在qt学习中实现数据库注册用户的方法,包括登录按钮按下后出现注册页面、账号可用性判断、密码格式判断、邮箱格式判断等步骤。具体实现过程包括UI设计、数据库的创建和各个模块调用数据内容。 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • 生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍
    一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks(论文下载链接arxiv:[h ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 无线认证设置故障排除方法及注意事项
    本文介绍了解决无线认证设置故障的方法和注意事项,包括检查无线路由器工作状态、关闭手机休眠状态下的网络设置、重启路由器、更改认证类型、恢复出厂设置和手机网络设置等。通过这些方法,可以解决无线认证设置可能出现的问题,确保无线网络正常连接和上网。同时,还提供了一些注意事项,以便用户在进行无线认证设置时能够正确操作。 ... [详细]
  • 本文介绍了游戏开发中的人工智能技术,包括定性行为和非定性行为的分类。定性行为是指特定且可预测的行为,而非定性行为则具有一定程度的不确定性。其中,追逐算法是定性行为的具体实例。 ... [详细]
  • JavaScript设计模式之策略模式(Strategy Pattern)的优势及应用
    本文介绍了JavaScript设计模式之策略模式(Strategy Pattern)的定义和优势,策略模式可以避免代码中的多重判断条件,体现了开放-封闭原则。同时,策略模式的应用可以使系统的算法重复利用,避免复制粘贴。然而,策略模式也会增加策略类的数量,违反最少知识原则,需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例,说明了策略模式的应用场景和实现方式。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 本文详细介绍了相机防抖的设置方法和使用技巧,包括索尼防抖设置、VR和Stabilizer档位的选择、机身菜单设置等。同时解释了相机防抖的原理,包括电子防抖和光学防抖的区别,以及它们对画质细节的影响。此外,还提到了一些运动相机的防抖方法,如大疆的Osmo Action的Rock Steady技术。通过本文,你将更好地理解相机防抖的重要性和使用技巧,提高拍摄体验。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
author-avatar
手机用户2502927203
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有