当前位置: 开发笔记 > 编程语言 > 正文

python自然语言处理之字典树知识总结

作者：甜心菇 | 来源：互联网 | 2023-07-23 19:49

这篇文章主要介绍了python自然语言处理之字典树知识总结,文中有非常详细的代码示例,对正在学习python的小伙伴们有非常好的帮助,

一、什么是字典树

在自然语言处理中，字符串集合常用字典树存储，这是一种字符串上的树形数据结构。字典树中每条边都对应一个字，从根节点往下的路径构成一个个字符串。

字典树并不直接在节点上存储字符串，而是将词语视作根节点到某节点之间的一条路径，并在终点节点上做个标记（表明到该节点就结束了）。

要查询一个单词，指需要顺着这条路径从根节点往下走。如果能走到标记的节点，则说明该字符串在集合中，否则说明不在。下图为字典树结构示例：

树结构

如上图所示，每条路径都是一个词汇，且没有子节点就可以判定该条路径结尾了。具体可以映射为下标所示：

词语	路径
欢迎	0-1-2
北大	0-3-8
北京城	0-3-4-5
北京大学	0-3-4-6-7

至于字典树的实现，相信只要认真学过数据结构的读者，都能手到擒来，这里不在赘述。因为HanLP库已经提供了多种字典树。

二、DoubleArrayTrieSegment

认识DoubleArrayTrieSegment类之前，我们需要了解双数组字典书的概念。

我们都知道，在树中遍历查找之时，我们一般用二分查找，假如某一个树的节点有N个节点，那么其复杂度就为O(logN)，这样查找起来一条一条树的遍历会非常的慢，所以就诞生了双数组字典树的概念。

双数组字典树（DAT）是一种状态转移复杂度为常数的数据结构。那么什么是状态呢？从确定有限状态自动机（DFA）的角度来讲，每个节点都是一个状态，状态表示当前已查询到的前缀。

从父节点到子节点的移动过程可以看作一次状态转移。在按照某个字符进行状态转移前，我们会向父节点询问该字符与子节点的映射关系（也就是一条路径一条边）。如果父节点有满足条件的边，则状态转移到子节点；否则立即失败，查询不到。当成功完成了全部转移时，我们就拿到了最后一个状态，询问该状态是否时最终状态。如果是，就查询到该词汇，否则该单词不存在于字典中。

比如我们查询首图的“北京大学”，状态开始为0，查询到北时状态为3，查询到京时状态为4，查询到大时状态为6，查询到学时状态为7，最后判断7是否还有子节点，如果没有匹配该词汇，如果有该词汇不在字典中。比如查询“北京大”就不在词汇中。

而双数组字典由base与check两个数组组成，其中base数组即节点，也是状态，分为空闲状态与占用状态，check数组为每个元素表示某个状态的前驱状态。具体公式如下：

base[s] + c = t
check[t] =  s

base树组中的s代表当前状态的下标，t代表转移状态的下标，c代表输入字符的数值

base[s] + c = t //表示一次状态转移

由于转移后状态下标为t，且父子关系是唯一的，所以可通过检验当前元素的前驱状态确定转移是否成功

check[t] = s //检验状态转移是否成功

这种算法相对于传统的Trie树二分查找的优点是，只需要一个加法一次比较即可完成一次状态转移，只花费了常数时间，下面给出了双数组Tree树的原理图（注意观察状态转移的过程）

了解了双数组字典树的原理，我们就可以来学习DoubleArrayTrieSegment，DoubleArrayTrieSegment分词器是对DAT（双数组字典树）最长匹配的封装，默认加载hanlp.properites中CoreDictionaryPath指定的词典。

对应的python代码如下：

if __name__ == "__main__":
    HanLP.Config.ShowTermNature=False#分词结果不显示词性
    segment=DoubleArrayTrieSegment()
    print(segment.seg("在来到这个世界之前，一起都很Happy"))

运行之后，得到如下图所示的结果：

当然，这是HanLP提供给我们的默认词典，如果想加载自己的词典，或者前文提到的其他开源的词典库，可以替换代码如下所示：

DoubleArrayTrieSegment(["词典1"，"词典2"])

但是不知道读者注意到了没有，上面的英文happy，它给我们拆成了单个的字母，但其实这是一个整体，如果这里替换成数字，也是一个一个数字，那么如何不让其拆开呢？

我们来看一段代码：

if __name__ == "__main__":
    HanLP.Config.ShowTermNature=True
    segment=DoubleArrayTrieSegment()
    segment.enablePartOfSpeechTagging(True)
    print(segment.seg("在来到这个世界之前，一起都很Happy"))

enablePartOfSpeechTagging函数的意思是激活数字与英文识别，同时我们把ShowTermNature改为True，观察其输出的结果：

这里与我们前面自己写的算法输出一模一样，有分开的词汇以及词汇的标记属性。

三、AhoCorasickDoubleArrayTrieSegment

虽然双数组字典树能遍历大量的数据，但是如果数据比较长的，这些长的词汇又比较多的话，比如“受命于天，既寿永昌”算一个词汇，那么其处理起来时间复杂度依旧非常耗时。所以，我们就需要使用ACDAT进行遍历。

这里博主不讲解其原理，因为太长篇幅有限，感兴趣的可以专门学习树结构的处理。读者只需要知道其原理，什么时候用双数组遍历，什么时候用ACDAT遍历就行。而HanLP封装的ACDAT的实现类是AhoCorasickDoubleArrayTrieSegment。

下面，我们来实现AhoCorasickDoubleArrayTrieSegment，代码如下：

if __name__ == "__main__":
    HanLP.Config.ShowTermNature = False
    segment = JClass("com.hankcs.hanlp.seg.Other.AhoCorasickDoubleArrayTrieSegment")()
    print(segment.seg("在来到这个世界之前，一起都很井然有序"))

运行之后，效果如下：

需要注意的是，python的HanLP虽然提供了AhoCorasickDoubleArrayTrieSegment类，但是读者可以试试，替换后运行会报错，控制台会提示该类没有seg函数。而HanLP库又是基于Java开发的，所以在实际的项目中，尽量使用JClass加载Java类进行实战，因为python的HanLP库运行速度比Java慢一倍，但python的好处是相对简单，可以调用其他程序的类，所以速度这方面只要python引用Java类进行调用，其实速度一样。

到此这篇关于python自然语言处理之字典树知识总结的文章就介绍到这了,更多相关python字典树内容请搜索编程笔记以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程笔记！

推荐阅读

replace
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
get
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
get
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
get
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
get
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
get
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
post
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
get
客户端与服务器之间的交互过程解析

本文详细解析了客户端与服务器之间的交互过程，重点介绍了Socket通信机制。IP地址由32位的4个8位二进制数组成，分为网络地址和主机地址两部分。通过使用 `ipconfig /all` 命令，用户可以查看详细的IP配置信息。此外，文章还介绍了如何使用 `ping` 命令测试网络连通性，例如 `ping 127.0.0.1` 可以检测本机网络是否正常。这些技术细节对于理解网络通信的基本原理具有重要意义。 ... [详细]

蜡笔小新 2024-11-11 15:09:25
get
JVM钩子函数的应用场景详解

本文详细介绍了JVM钩子函数的多种应用场景，包括正常关闭、异常关闭和强制关闭。通过具体示例和代码演示，帮助读者更好地理解和应用这一机制。适合对Java编程和JVM有一定基础的开发者阅读。 ... [详细]

蜡笔小新 2024-11-13 18:34:48
java
Java初学者必备的六大核心知识点

本文总结了Java初学者需要掌握的六大核心知识点，帮助你更好地理解和应用Java编程。无论你是刚刚入门还是希望巩固基础，这些知识点都是必不可少的。 ... [详细]

蜡笔小新 2024-11-13 18:24:59
java
LeetCode Python 566 重塑矩阵详解

本题主要考察二维数组的遍历和重塑。通过将二维数组降为一维，再根据新的行数和列数重新构建矩阵。 ... [详细]

蜡笔小新 2024-11-13 16:37:25
get
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
split
利用Python Paramiko库批量更新多台服务器的登录密码

本文介绍了如何使用Python的Paramiko库批量更新多台服务器的登录密码。通过示例代码展示了具体实现方法，确保了操作的高效性和安全性。Paramiko库提供了强大的SSH2协议支持，使得远程服务器管理变得更加便捷。此外，文章还详细说明了代码的各个部分，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 19:17:23
text
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
version
复旦大学自然语言处理学习案例：中文词汇分割技术解析

本文通过复旦大学自然语言处理课程中的一个具体案例，详细解析了中文词汇分割技术的实现方法。该案例利用Java编程语言，结合词典和算法模型，展示了如何高效地进行中文文本的词汇分割，为相关研究和应用提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-10-25 16:52:41

甜心菇

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章