当前位置: 开发笔记 > 编程语言 > 正文

python+gensim︱jieba分词、词袋doc2bow、TFIDF文本挖掘

作者：8877Lyt_953 | 来源：互联网 | 2023-09-24 19:40

一、jieba分词功能来源github：https:github.comfxsjyjieba1、主要模式支持三种分词模式：精确模式，试图将

一、jieba分词功能

来源github&＃xff1a;https://github.com/fxsjy/jieba

1、主要模式

支持三种分词模式&＃xff1a;

精确模式&＃xff0c;试图将句子最精确地切开&＃xff0c;适合文本分析&＃xff1b;
全模式&＃xff0c;把句子中所有的可以成词的词语都扫描出来, 速度非常快&＃xff0c;但是不能解决歧义&＃xff1b;
搜索引擎模式&＃xff0c;在精确模式的基础上&＃xff0c;对长词再次切分&＃xff0c;提高召回率&＃xff0c;适合用于搜索引擎分词。支持繁体分词

支持自定义词典
.

2、算法

基于前缀词典实现高效的词图扫描&＃xff0c;生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词&＃xff0c;采用了基于汉字成词能力的 HMM 模型&＃xff0c;使用了 Viterbi 算法
.

3、主要功能

jieba.cut

方法接受三个输入参数: 需要分词的字符串&＃xff1b;cut_all 参数用来控制是否采用全模式&＃xff1b;HMM 参数用来控制是否使用HMM 模型

jieba.cut_for_search

方法接受两个参数&＃xff1a;需要分词的字符串&＃xff1b;是否使用 HMM模型。该方法适合用于搜索引擎构建倒排索引的分词&＃xff0c;粒度比较细待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK字符串。注意&＃xff1a;不建议直接输入 GBK 字符串&＃xff0c;可能无法预料地错误解码成 UTF-8

jieba.Tokenizer(dictionary&＃61;DEFAULT_DICT)

新建自定义分词器&＃xff0c;可用于同时使用不同词典。jieba.dt 为默认分词器&＃xff0c;所有全局分词相关函数都是该分词器的映射。

载入词典

用法&＃xff1a; jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径词典格式和 dict.txt一样&＃xff0c;一个词占一行&＃xff1b;每一行分三部分&＃xff1a;词语、词频&＃xff08;可省略&＃xff09;、词性&＃xff08;可省略&＃xff09;&＃xff0c;用空格隔开&＃xff0c;顺序不可颠倒。file_name若为路径或二进制方式打开的文件&＃xff0c;则文件必须为 UTF-8 编码。词频省略时使用自动计算的能保证分出该词的词频。

调整词典。

使用 add_word(word, freq&＃61;None, tag&＃61;None) 和 del_word(word)可在程序中动态修改词典。使用 suggest_freq(segment, tune&＃61;True) 可调节单个词语的词频&＃xff0c;使其能&＃xff08;或不能&＃xff09;被分出来。注意&＃xff1a;自动计算的词频在使用 HMM 新词发现功能时可能无效。

基于 TF-IDF 算法的关键词抽取

import jieba.analysejieba.analyse.extract_tags(sentence, topK&＃61;20, withWeight&＃61;False, allowPOS&＃61;()) sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词&＃xff0c;默认值为 20 withWeight 为是否一并返回关键词权重值&＃xff0c;默认值为 False allowPOS 仅包括指定词性的词&＃xff0c;默认值为空&＃xff0c;即不筛选 jieba.analyse.TFIDF(idf_path&＃61;None) 新建 TFIDF 实例&＃xff0c;idf_path 为 IDF 频率文件

基于 TextRank 算法的关键词抽取

jieba.analyse.textrank(sentence, topK&＃61;20, withWeight&＃61;False, allowPOS&＃61;(&＃39;ns&＃39;, &＃39;n&＃39;, &＃39;vn&＃39;, &＃39;v&＃39;)) 直接使用&＃xff0c;接口相同&＃xff0c;注意默认过滤词性。 jieba.analyse.TextRank() 新建自定义 TextRank 实例

词性标注

jieba.posseg.POSTokenizer(tokenizer&＃61;None) 新建自定义分词器&＃xff0c;tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。标注句子分词后每个词的词性&＃xff0c;采用和 ictclas 兼容的标记法。

并行分词

基于 python 自带的 multiprocessing 模块&＃xff0c;目前暂不支持 Windows用法&＃xff1a;jieba.enable_parallel(4) # 开启并行分词模式&＃xff0c;参数为并行进程数 jieba.disable_parallel() # 关闭并行分词模式

应用一&＃xff1a;自定义词典或特定词识别

自定义词典加入方式一&＃xff1a;

import jieba jieba.load_userdict("userdict.txt")

自定义词典的格式为词语-词频-词性&＃xff0c;其中词频与词性可以没有&＃xff1a;

&＃xfeff;云计算 5 李小福 2 nr 创新办 3 i easy_install 3 eng 好用 300 韩玉赏鉴 3 nz 八一双鹿 3 nz 台中凱特琳 nz Edu Trust认证 2000

自定义词加入方式二&＃xff1a;

add_word(word, freq&＃61;None, tag&＃61;None) 和 del_word(word) 可在程序中动态修改词典。
suggest_freq(segment, tune&＃61;True) 可调节单个词语的词频&＃xff0c;使其能&＃xff08;或不能&＃xff09;被分出来。

>>> print(&＃39;/&＃39;.join(jieba.cut(&＃39;如果放到post中将出错。&＃39;, HMM&＃61;False))) 如果/放到/post/中将/出错/。 >>> jieba.suggest_freq((&＃39;中&＃39;, &＃39;将&＃39;), True) 494 >>> jieba.add_word((&＃39;中将&＃39;), freq &＃61; 500)

应用二&＃xff1a;关键词提取

import jieba.analyse text &＃61; &＃39;新媒体运营如何提升自己的写作能力&＃39;# 添加新词 word &＃61; &＃39;新媒体运营&＃39; jieba.suggest_freq((word), True) jieba.add_word(word, freq&＃61;100, tag&＃61;&＃39;get&＃39;)# 利用idf进行关键词提取 jieba.analyse.set_idf_path("/mnt/gensim/jieba-master/idf.txt.big") print &＃39; &＃39;.join(jieba.analyse.extract_tags(text, topK&＃61;100, withWeight&＃61;False, allowPOS&＃61;(&＃39;get&＃39;,&＃39;n&＃39;,&＃39;ns&＃39;,&＃39;vn&＃39;)))

jieba.analyse.set_idf_path()可以在关键词提取时&＃xff0c;进行IDF设置&＃xff0c;一般来说&＃xff0c;IDF设置大一些&＃xff0c;露出机会就多一些。
add_word()此时可以自定义一种词性&＃xff0c;这样就可以达到特定领域词的提取。

此时还可以设置停用词&＃xff1a;

jieba.analyse.set_stop_words(file_name)

格式为&＃xff1a;

the of is and to in that we for an are by be as on with can if from which you

二、gensim的doc2bow实现词袋模型

词袋模型不做过多介绍&＃xff0c;直接来个案例

from gensim import corpora, models, similarities raw_documents &＃61; [ &＃39;0无偿居间介绍买卖毒品的行为应如何定性&＃39;, &＃39;1吸毒男动态持有大量毒品的行为该如何认定&＃39;, &＃39;2如何区分是非法种植毒品原植物罪还是非法制造毒品罪&＃39;, &＃39;3为毒贩贩卖毒品提供帮助构成贩卖毒品罪&＃39;, &＃39;4将自己吸食的毒品原价转让给朋友吸食的行为该如何认定&＃39;, &＃39;5为获报酬帮人购买毒品的行为该如何认定&＃39;, &＃39;6毒贩出狱后再次够买毒品途中被抓的行为认定&＃39;, &＃39;7虚夸毒品功效劝人吸食毒品的行为该如何认定&＃39;, &＃39;8妻子下落不明丈夫又与他人登记结婚是否为无效婚姻&＃39;, &＃39;9一方未签字办理的结婚登记是否有效&＃39;, &＃39;10夫妻双方1990年按农村习俗举办婚礼没有结婚证一方可否起诉离婚&＃39;, &＃39;11结婚前对方父母出资购买的住房写我们二人的名字有效吗&＃39;, &＃39;12身份证被别人冒用无法登记结婚怎么办&＃xff1f;&＃39;, &＃39;13同居后又与他人登记结婚是否构成重婚罪&＃39;, &＃39;14未办登记只举办结婚仪式可起诉离婚吗&＃39;, &＃39;15同居多年未办理结婚登记&＃xff0c;是否可以向法院起诉要求离婚&＃39; ]

载入中文数据以及对应的包&＃xff0c;corpora是构造词典的, similarities求相似性可以用得到。

texts &＃61; [[word for word in jieba.cut(document, cut_all&＃61;True)] for document in raw_documents]

将词语进行分词&＃xff0c;并进行存储。

dictionary &＃61; corpora.Dictionary(texts)

寻找整篇语料的词典、所有词&＃xff0c;corpora.Dictionary。

corpus &＃61; [dictionary.doc2bow(text) for text in texts]

建立语料之后&＃xff0c;分支一&＃xff1a;BOW词袋模型&＃xff1b;分支二&＃xff1a;建立TFIDF。
.

分之一&＃xff1a;BOW词袋模型

由doc2bow变为词袋&＃xff0c;输出的格式为&＃xff1a;

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (4, 1), (5, 1), (7, 1), (8, 1), (9, 2), (10, 1)], [(0, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (10, 1)]]

例如&＃xff08;9&＃xff0c;2&＃xff09;这个元素代表第二篇文档中id为9的单词“silver”出现了2次。
.

分支二&＃xff1a;建立TFIDF

tfidf &＃61; models.TfidfModel(corpus)

使用tf-idf 模型得出该评论集的tf-idf 模型

corpus_tfidf &＃61; tfidf[corpus]

此处已经计算得出所有评论的tf-idf 值

在TFIDF的基础上&＃xff0c;进行相似性检索。

similarity &＃61; similarities.Similarity(&＃39;Similarity-tfidf-index&＃39;, corpus_tfidf, num_features&＃61;600)

然后进行similarity检索。

print(similarity[test_corpus_tfidf_1]) # 返回最相似的样本材料,(index_of_document, similarity) tuples

当然其中的test_corpus_tfidf_1需要进行预先处理。先变为dow2bow&＃xff0c;然后tfidf
.

情况一&＃xff1a;新的句子

new_sensence &＃61; "16通过下面一句得到语料中每一篇文档对应的稀疏向量" test_corpus_1 &＃61; dictionary.doc2bow(jieba.cut(raw_documents[1], cut_all&＃61;True)) vec_tfidf &＃61; tfidf[test_corpus_1]

利用doc2bow对其进行分割&＃xff0c;然后求tfidf模型。输出的结果即为&＃xff1a;

vec_tfidf Out[82]: [(1, 0.09586155438319434),(5, 0.1356476941913782),(6, 0.09586155438319434),(8, 0.1356476941913782),(11, 0.19172310876638868),(12, 0.38344621753277736),(13, 0.38344621753277736),(14, 0.38344621753277736),(15, 0.16086258119086566),(16, 0.38344621753277736),(17, 0.38344621753277736),(18, 0.38344621753277736)]

情况二&＃xff1a;tfidf模型的保存与内容查看

for item in corpus_tfidf: print(item) tfidf.save("data.tfidf") tfidf &＃61; models.TfidfModel.load("data.tfidf") print(tfidf_model.dfs)

案例一&＃xff1a;
test_corpus是语料&＃xff0c;通过bow2vec函数向量格式更改为&＃xff1a;[0.1,0.2,0,0,0,0,…,0.9]

import jieba from gensim import corpora, models, similarities import numpy as np from tqdm import tqdmtexts &＃61; [[word for word in jieba.cut(document, cut_all&＃61;True)] for document in test_corpus] dictionary &＃61; corpora.Dictionary(texts) corpus &＃61; [dictionary.doc2bow(text) for text in texts] tfidf &＃61; models.TfidfModel(corpus) corpus_tfidf &＃61;tfidf[corpus] def bow2vec(corpus_tfidf,dictionary):vec &＃61; []length &＃61; max(dictionary) &＃43; 1for content in tqdm(corpus_tfidf):sentense_vectors &＃61; np.zeros(length)for co in content:sentense_vectors[co[0]]&＃61;co[1]vec.append(sentense_vectors)return vecsvec &＃61; bow2vec(corpus_tfidf,dictionary)

推荐阅读

import
baresip android编译、运行教程1语音通话

本文介绍了如何在安卓平台上编译和运行baresip android，包括下载相关的sdk和ndk，修改ndk路径和输出目录，以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]

蜡笔小新 2023-12-14 10:53:48
import
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
import
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
dll
Windows下配置PHP5.6的方法及注意事项

本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项，包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法，如下载缺失的msvcr110.dll文件等。通过本文的指导，读者可以轻松地在Windows系统下配置PHP5.6，并解决一些常见的配置问题。 ... [详细]

蜡笔小新 2023-12-14 12:37:25
import
无损压缩算法专题——LZSS算法实现

本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ... [详细]

蜡笔小新 2023-12-13 19:47:31
import
解决Cydia数据库错误：could not open file /var/lib/dpkg/status 的方法

本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件，以及ifunbox工具和终端命令，可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中，并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]

蜡笔小新 2023-12-13 19:02:44
import
基于PgpoolII的PostgreSQL集群安装与配置教程

本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件，提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能，可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤，并提供了相关的官方参考地址。 ... [详细]

蜡笔小新 2023-12-14 19:10:25
command
解决Docker中volume的权限问题的方法

在Docker中，将主机目录挂载到容器中作为volume使用时，常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法，包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法，可以避免在使用Docker时出现无写权限的情况。 ... [详细]

蜡笔小新 2023-12-14 18:48:02
import
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
bit
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
bit
rhel5.5搭建网关+LAMP+postfix+dhcp的步骤和配置方法

本文介绍了在rhel5.5操作系统下搭建网关+LAMP+postfix+dhcp的步骤和配置方法。通过配置dhcp自动分配ip、实现外网访问公司网站、内网收发邮件、内网上网以及SNAT转换等功能。详细介绍了安装dhcp和配置相关文件的步骤，并提供了相关的命令和配置示例。 ... [详细]

蜡笔小新 2023-12-14 17:13:20
bit
如何在Android中通过代码更改Recycler视图项的背景颜色

本文讲述了如何通过代码在Android中更改Recycler视图项的背景颜色。通过在onBindViewHolder方法中设置条件判断，可以实现根据条件改变背景颜色的效果。同时，还介绍了如何修改底部边框颜色以及提供了RecyclerView Fragment layout.xml和项目布局文件的示例代码。 ... [详细]

蜡笔小新 2023-12-14 12:45:01
java
SpringBoot yml 配置多配置文件,开发环境,生产环境配置文件分开

原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中，有两种配置文件，一种 ... [详细]

蜡笔小新 2023-12-14 12:39:13
java
JavaScript设计模式之策略模式（Strategy Pattern）的优势及应用

本文介绍了JavaScript设计模式之策略模式（Strategy Pattern）的定义和优势，策略模式可以避免代码中的多重判断条件，体现了开放-封闭原则。同时，策略模式的应用可以使系统的算法重复利用，避免复制粘贴。然而，策略模式也会增加策略类的数量，违反最少知识原则，需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例，说明了策略模式的应用场景和实现方式。 ... [详细]

蜡笔小新 2023-12-14 09:31:45
grid
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48

8877Lyt_953

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章