Python除了结巴分词，还有什么好用的中文分词工具？

作者：西门庆重生727 | 来源：互联网 | 2023-01-19 16:52

背景在对文本进行处理分析时，大家第一印象就是对句子进行分词，统计词频，看哪些词语出现的词频较高，重点关注这些高频词即可，文章可能就是围绕着这些词展开的。中文的分词工具，大家耳熟能详的可能就是结巴

背景

在对文本进行处理分析时，大家第一印象就是对句子进行分词，统计词频，看哪些词语出现的词频较高，重点关注这些高频词即可，文章可能就是围绕着这些词展开的。中文的分词工具，大家耳熟能详的可能就是结巴分词，但是结巴分词最近也没有怎么更新，随着技术的不断迭代有一些更优秀的分词工具诞生，比如：LAC（百度）、THULAC（清华大学）、LTP（哈工大）、FoolNLTK等

这里主要介绍一下百度的LAC，现在已更新到v2.1，GitHub地址：https://github.com/baidu/lac，使用起来速度与效果还可以，足以应对简单的分词任务

LAC介绍

LAC全称 Lexical Analysis of Chinese，是百度自然语言处理部研发的一款联合的词法分析工具，实现中文分词、词性标注、专名识别等功能。该工具具有以下特点与优势：

效果好：通过深度学习模型联合学习分词、词性标注、专名识别任务，词语重要性，整体效果F1值超过0.91，词性标注F1值超过0.94，专名识别F1值超过0.85，效果业内领先。

效率高：精简模型参数，结合Paddle预测库的性能优化，CPU单线程性能达800QPS，效率业内领先。

可定制：实现简单可控的干预机制，精准匹配用户词典对模型进行干预。词典支持长片段形式，使得干预更为精准。

调用便捷：支持一键安装，同时提供了Python、Java和C++调用接口与调用示例，实现快速调用和集成。

支持移动端: 定制超轻量级模型，体积仅为2M，主流千元手机单线程性能达200QPS，满足大多数移动端应用的需求，同等体积量级效果业内领先。

功能看着很强大，但是这里只用到中文分词功能，下面介绍一下使用的demo，
通过 pip install lac 进行安装即可

使用教程

直接使用lac分词
加载LAC后，通过其自带的模型进行分词，结果为一个列表

from LAC import LAC

# 装载分词模型
lac = LAC(mode='seg')

text='我是一名北漂的打工人、干饭人'
lac.run(text)

text_list=['我是一名北漂的打工人、干饭人','5月15日，航天科研人员在北京航天飞行控制中心指挥大厅庆祝我国首次火星探测任务着陆火星成功']
lac.run(text_list)

直接使用lac分词

加载自定义字典
从上面可以看出“打工人”可以正确分词，但是“干饭人”不能正确的切分，可以通过加载自定义字典来进行处理这种情况

自定义字典

from LAC import LAC

#装载分词模型
lac = LAC(mode='seg')

#加载自定义字典
lac.load_customization('自定义字典.txt', sep=None)

text='我是一名北漂的打工人、干饭人'
lac.run(text)

text_list=['我是一名北漂的打工人、干饭人',
           '5月15日，航天科研人员在北京航天飞行控制中心指挥大厅庆祝我国首次火星探测任务着陆火星成功']
lac.run(text_list)

加载自定义字典

从上面的输出结果可以看出，已经正确分词

历史相关文章

自然语言处理（NLP） Bert与Lstm结合
Python加载txt数据乱码问题升级版解决方法

以上是自己实践中遇到的一些问题，分享出来供大家参考学习，欢迎关注微信公众号：DataShare ，不定期分享干货

推荐阅读

export
如何在Linux系统中部署TensorFlow的详细指南

本文详细介绍了在Linux系统中部署TensorFlow的过程。作者基于北京大学曹建教授的MOOC课程进行学习，但由于课程内容较旧，环境配置方面遇到了不少挑战。经过多次尝试，最终成功解决了这些问题，并总结了一套详细的安装指南，帮助初学者快速上手TensorFlow。 ... [详细]

蜡笔小新 2024-10-24 13:06:19
install
Python正则表达式详解：掌握数量词用法轻松上手

Python正则表达式详解：掌握数量词用法轻松上手 ... [详细]

蜡笔小新 2024-10-28 09:12:57
ip
Python与Selenium自动化测试环境配置指南

Python与Selenium自动化测试环境配置指南 ... [详细]

蜡笔小新 2024-10-23 16:19:42
ip
在Linux系统中构建51单片机开发与编程环境——基于Makefile的详细指南

本文详细介绍了如何在Linux系统中搭建51单片机的开发与编程环境，重点讲解了使用Makefile进行项目管理的方法。首先，文章指导读者安装SDCC（Small Device C Compiler），这是一个专为小型设备设计的C语言编译器，适合用于51单片机的开发。随后，通过具体的实例演示了如何配置Makefile文件，以实现代码的自动化编译与链接过程，从而提高开发效率。此外，还提供了常见问题的解决方案及优化建议，帮助开发者快速上手并解决实际开发中可能遇到的技术难题。 ... [详细]

蜡笔小新 2024-10-31 11:43:45
copy
深入解析进程及其描述符（task_struct）

进程（Process）是指计算机中程序对特定数据集的一次运行活动，是系统资源分配与调度的核心单元，构成了操作系统架构的基础。在早期以进程为中心的计算机体系结构中，进程被视为程序的执行实例，其状态和控制信息通过任务描述符（task_struct）进行管理和维护。本文将深入探讨进程的概念及其关键数据结构task_struct，解析其在操作系统中的作用和实现机制。 ... [详细]

蜡笔小新 2024-10-31 10:54:55
ip
voc生成xml 代码

目录 lxmlwindows安装读取示例可视化生成示例上面是代码，下面有调用示例 api调用代码，其实只有几行：这个生成代码也很简 ... [详细]

蜡笔小新 2024-10-30 09:23:45
ip
深入解析IO复用技术及其在C10K问题中的应用

本文深入探讨了IO复用技术的原理与实现，重点分析了其在解决C10K问题中的关键作用。IO复用技术允许单个进程同时管理多个IO对象，如文件、套接字和管道等，通过系统调用如`select`、`poll`和`epoll`，高效地处理大量并发连接。文章详细介绍了这些技术的工作机制，并结合实际案例，展示了它们在高并发场景下的应用效果。 ... [详细]

蜡笔小新 2024-10-29 18:24:19
install
在Ubuntu系统中利用GDB深入调试printf函数源代码

本文详细介绍了在Ubuntu操作系统中使用GDB调试工具深入分析和调试标准库函数`printf`的源代码过程。通过具体步骤和实例，展示了如何设置断点、查看变量值及跟踪函数调用栈，帮助开发者更好地理解`printf`函数的工作原理及其内部实现细节。 ... [详细]

蜡笔小新 2024-10-29 12:23:41
install
在Windows命令行中利用Conda高效管理虚拟环境的创建与删除

在Windows命令行中，通过Conda工具可以高效地管理和操作虚拟环境。具体步骤包括：1. 列出现有虚拟环境：`conda env list`；2. 创建新虚拟环境：`conda create --name 环境名`；3. 删除虚拟环境：`conda env remove --name 环境名`。这些命令不仅简化了环境管理流程，还提高了开发效率。此外，Conda还支持环境文件导出和导入，方便在不同机器间迁移配置。 ... [详细]

蜡笔小新 2024-10-28 17:27:00
ip
深入解析 Unity URP/SRP 渲染管线：匠心打造的全面指南

本文深入探讨了Unity中的URP、SRP和HDRP渲染管线，详细解析了它们之间的关系及各自的特点。首先介绍了SRP的基本概念及其在Unity渲染架构中的作用，随后重点阐述了URP和HDRP的设计理念与应用场景。文章还分析了SRP诞生的背景，解释了为何Unity需要引入这一灵活的渲染框架，以满足不同项目的需求。通过对比URP和HDRP，读者可以更好地理解如何选择合适的渲染管线，以优化项目的性能和视觉效果。 ... [详细]

蜡笔小新 2024-10-28 09:54:14
install
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17
ip
如何在Python中正确安装NumPy库——Python入门指南

在Python中正确安装NumPy库是初学者必须掌握的基本技能。首先，确保你的Python环境已正确配置。接着，访问NumPy官方网站，下载与你当前Python版本相匹配的NumPy安装包。将下载的文件放置于Python安装目录下的Scripts文件夹内。最后，在命令行界面中执行 `pip install numpy` 命令完成安装。此外，建议使用虚拟环境进行安装，以避免不同项目之间的依赖冲突。 ... [详细]

蜡笔小新 2024-10-26 10:38:58
install
在Windows上使用Python 3.8.5编译支持CUDA 11和cuDNN 8.0.2的TensorFlow 2.3，并提供编译后的文件下载链接

本文详细介绍了在Windows操作系统上使用Python 3.8.5编译支持CUDA 11和cuDNN 8.0.2的TensorFlow 2.3的步骤。文章不仅提供了详细的编译指南，还分享了编译后的文件下载链接，方便用户快速获取所需资源。此外，文中还涵盖了常见的编译问题及其解决方案，确保用户能够顺利进行编译和安装。 ... [详细]

蜡笔小新 2024-10-24 13:06:46
install
优化Django应用中的MySQL连接池配置方法

django设置mysql连接池导库 pipinstalldjango-db-connection-poolsettings.py设置将ENGINEdjango.db.back ... [详细]

蜡笔小新 2024-10-22 17:22:08
ip
优化后的标题：利用YUM高效安装与管理MySQL数据库环境

优化后的标题：利用YUM高效安装与管理MySQL数据库环境 ... [详细]

蜡笔小新 2024-10-29 17:01:47

西门庆重生727

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章