jieba分词02

作者：漂泊盼安定 | 来源：互联网 | 2023-10-11 16:40

github地址:https:github.comfxsjyjieba示例1：对txt文本进行分词，并对获取的分词进行计数，最后将结果写

github地址:https://github.com/fxsjy/jieba

示例1&＃xff1a;对txt文本进行分词&＃xff0c;并对获取的分词进行计数&＃xff0c;最后将结果写入result.txt中。

http://www.cnblogs.com/chenbjin/p/3843800.html

import jieba
import sys
reload(sys)
sys.setdefaultencoding(&＃39;utf8&＃39;)def fenci(argv) :filename &＃61; argv[1]f &＃61; open(filename,&＃39;r&＃43;&＃39;)file_list &＃61; f.read()f.close()seg_list &＃61; jieba.cut(file_list,cut_all&＃61;True)tf&＃61;{}for seg in seg_list :#print segseg &＃61; &＃39;&＃39;.join(seg.split())if (seg !&＃61; &＃39;&＃39; and seg !&＃61; "\n" and seg !&＃61; "\n\n") :if seg in tf :tf[seg] &＃43;&＃61; 1else :tf[seg] &＃61; 1f &＃61; open("result.txt","w&＃43;")for item in tf:#print itemf.write(item&＃43;" "&＃43;str(tf[item])&＃43;"\n")f.close()if __name__ &＃61;&＃61; &＃39;__main__&＃39; : fenci(sys.argv)

示例2&＃xff1a;http://www.cnblogs.com/chenbjin/p/3851165.html

对100份文档进行分词&＃xff0c;然后进行TF-IDF的计算&＃xff0c;其效果相当好。

import os
import jieba
import jieba.posseg as pseg
import sys
import string
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
reload(sys)
sys.setdefaultencoding(&＃39;utf8&＃39;)
#获取文件列表&＃xff08;该目录下放着100份文档&＃xff09;
def getFilelist(argv) :path &＃61; argv[1]filelist &＃61; []files &＃61; os.listdir(path)for f in files :if(f[0] &＃61;&＃61; &＃39;.&＃39;) :passelse :filelist.append(f)return filelist,path
#对文档进行分词处理
def fenci(argv,path) :#保存分词结果的目录sFilePath &＃61; &＃39;./segfile&＃39;if not os.path.exists(sFilePath) : os.mkdir(sFilePath)#读取文档filename &＃61; argvf &＃61; open(path&＃43;filename,&＃39;r&＃43;&＃39;)file_list &＃61; f.read()f.close()#对文档进行分词处理&＃xff0c;采用默认模式seg_list &＃61; jieba.cut(file_list,cut_all&＃61;True)#对空格&＃xff0c;换行符进行处理result &＃61; []for seg in seg_list :seg &＃61; &＃39;&＃39;.join(seg.split())if (seg !&＃61; &＃39;&＃39; and seg !&＃61; "\n" and seg !&＃61; "\n\n") :result.append(seg)#将分词后的结果用空格隔开&＃xff0c;保存至本地。比如"我来到北京清华大学"&＃xff0c;分词结果写入为&＃xff1a;"我来到北京清华大学"f &＃61; open(sFilePath&＃43;"/"&＃43;filename&＃43;"-seg.txt","w&＃43;")f.write(&＃39; &＃39;.join(result))f.close()#读取100份已分词好的文档&＃xff0c;进行TF-IDF计算
def Tfidf(filelist) :path &＃61; &＃39;./segfile&＃xff0f;&＃39;corpus &＃61; [] #存取100份文档的分词结果for ff in filelist :fname &＃61; path &＃43; fff &＃61; open(fname,&＃39;r&＃43;&＃39;)content &＃61; f.read()f.close()corpus.append(content) vectorizer &＃61; CountVectorizer() transformer &＃61; TfidfTransformer()tfidf &＃61; transformer.fit_transform(vectorizer.fit_transform(corpus))word &＃61; vectorizer.get_feature_names() #所有文本的关键字weight &＃61; tfidf.toarray() #对应的tfidf矩阵
sFilePath &＃61; &＃39;./tfidffile&＃39;if not os.path.exists(sFilePath) : os.mkdir(sFilePath)# 这里将每份文档词语的TF-IDF写入tfidffile文件夹中保存for i in range(len(weight)) :print u"--------Writing all the tf-idf in the",i,u" file into ",sFilePath&＃43;&＃39;/&＃39;&＃43;string.zfill(i,5)&＃43;&＃39;.txt&＃39;,"--------"f &＃61; open(sFilePath&＃43;&＃39;/&＃39;&＃43;string.zfill(i,5)&＃43;&＃39;.txt&＃39;,&＃39;w&＃43;&＃39;)for j in range(len(word)) :f.write(word[j]&＃43;" "&＃43;str(weight[i][j])&＃43;"\n")f.close()if __name__ &＃61;&＃61; "__main__" : (allfile,path) &＃61; getFilelist(sys.argv)for ff in allfile :print "Using jieba on "&＃43;fffenci(ff,path)Tfidf(allfile)

推荐阅读

io
C/C++ 应用程序的安装与卸载解决方案

本文介绍了如何使用Inno Setup来创建C/C++应用程序的安装程序，包括自动检测并安装所需的运行库，确保应用能够顺利安装和卸载。 ... [详细]

蜡笔小新 2024-11-23 13:44:53
io
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23
io
必须为元素类型 mapper 声明属性 namespace解决

在使用mybatis进行mapper.xml测试的时候发生必须为元素类型“mapper”声明属性“namespace”的错误项目目录结构UserMapper和UserMappe ... [详细]

蜡笔小新 2024-11-23 20:06:58
io
Java连接MySQL数据库的方法及测试示例

本文详细介绍了如何安装MySQL数据库，并通过Java编程语言实现与MySQL数据库的连接，包括环境搭建、数据库创建以及简单的查询操作。 ... [详细]

蜡笔小新 2024-11-23 18:58:43
object
Swift Closure与Objective-C Block的对比分析

本文旨在探讨Swift中的Closure与Objective-C中的Block之间的区别与联系，通过定义、使用方式以及外部变量捕获等方面的比较，帮助开发者更好地理解这两种机制的特点及应用场景。 ... [详细]

蜡笔小新 2024-11-23 17:41:01
object
将datatable导出为excel的三种方式（转）

一、使用Microsoft.Office.Interop.Excel.DLL需要安装Office代码如下：2publicstaticboolExportExcel(S ... [详细]

蜡笔小新 2024-11-23 16:37:33
object
SSM框架实战：分页功能实现详解

本文详细介绍如何在SSM（Spring + Spring MVC + MyBatis）框架中实现分页功能。包括分页的基本概念、数据准备、前端分页栏的设计与实现、后端分页逻辑的编写以及最终的测试步骤。 ... [详细]

蜡笔小新 2024-11-23 11:40:33
io
Spring Security基础配置详解

本文详细介绍了Spring Security的基础配置方法，包括如何搭建Maven多模块工程以及具体的安全配置步骤，帮助开发者更好地理解和应用这一强大的安全框架。 ... [详细]

蜡笔小新 2024-11-22 20:52:07
io
深入解析Android联系人数据库设计：AbstractContactsProvider

本文探讨了Android系统中联系人数据库的设计，特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析，并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]

蜡笔小新 2024-11-24 18:04:54
io
PHP中处理HTTP头部信息的方法与技巧

本文详细介绍了在PHP中如何获取和处理HTTP头部信息，包括通过cURL获取请求头信息、使用header函数发送响应头以及获取客户端HTTP头部的方法。同时，还探讨了PHP中$_SERVER变量的使用，以获取客户端和服务器的相关信息。 ... [详细]

蜡笔小新 2024-11-24 16:12:27
regex
为何引入jQuery UI自动完成功能后，我的列表框也受到影响？

我在尝试将组合框转换为具有自动完成功能时遇到了一个问题，即页面上的列表框也被转换成了自动完成下拉框，而不是保持原有的多选列表框形式。 ... [详细]

蜡笔小新 2024-11-24 12:02:48
io
如何使用Maven将依赖插件一并打包进JAR文件

本文详细介绍了在使用Maven构建项目时，如何将所需的依赖插件一同打包进最终的JAR文件中，以避免手动部署依赖库的麻烦。 ... [详细]

蜡笔小新 2024-11-23 22:51:34
io
【MySQL】frm文件解析

官网说明：http:dev.mysql.comdocinternalsenfrm-file-format.htmlfrm是MySQL表结构定义文件，通常frm文件是不会损坏的，但是如果 ... [详细]

蜡笔小新 2024-11-23 10:29:06
object
C# 实现服务账户密码重置功能

本文详细介绍了如何使用C#实现不同类型的系统服务账户（如Windows服务、计划任务和IIS应用池）的密码重置方法。 ... [详细]

蜡笔小新 2024-11-22 21:55:10
object
深入解析HashMap中的hash()方法

本文详细探讨了Java中HashMap类的hash()方法的工作原理及其重要性，特别是在JDK 7版本中的实现。 ... [详细]

蜡笔小新 2024-11-22 21:33:48

漂泊盼安定

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章