当前位置: 开发笔记 > 编程语言 > 正文

jieba库词频统计_jieba库的使用与词频统计

作者：lovely尤研君2007 | 来源：互联网 | 2023-09-15 15:28

1、词频统计(1)词频分析是对文章中重要词汇出现的次数进行统计与分析，是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法，基本原

1、词频统计

(1)词频分析是对文章中重要词汇出现的次数进行统计与分析，是文本

挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法，基本原理是通过词出现频次多少的变化，来确定热点及其变化趋势。

(2)安装jieba库

安装说明

代码对 Python 2/3 均兼容

全自动安装：easy_install jieba 或者 pip install jieba / pip3 install jieba

半自动安装：先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行 python setup.py install

手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录

通过 import jieba 来引用

示例、全自动安装

在命令行下输入指令：

pip install jieba

(2) 安装进程：

2、调用库函数

1、输入import jieba与使用其中函数

3、python代码

#!python3

#-*- coding: utf-8 -*-import os, codecs

import jiebafromcollections import Counter

def get_words(txt):

seg_list=jieba.cut(txt) #对文本进行分词

c=Counter()for x inseg_list: #进行词频统计if len(x)>1 and x != &＃39;\r\n&＃39;:

c[x]+= 1print(&＃39;常用词频度统计结果&＃39;)for (k,v) in c.most_common(20): #遍历输出高频词

print(&＃39;%s%s %s %d&＃39; % (&＃39; &＃39;*(5-len(k)), k, &＃39;*&＃39;*int(v/2), v))if __name__ == &＃39;__main__&＃39;:

with codecs.open(&＃39;梦里花落知多少.txt&＃39;, &＃39;r&＃39;, &＃39;utf8&＃39;) asf:

txt=f.read()

get_words(txt)

• •显示效果

4、词云

import jieba

import wordcloud

f= open("梦里花落知多少.txt","r",encoding = "utf-8") #打开文件

t=f.read() #读取文件，并存好

f.close()

ls=jieba.lcut(t) #对文本分词

txt= " ".join(ls) #对文本进行标点空格化

w= wordcloud.WordCloud(font_path = "msyh.ttc",width = 1000,height = 700,background_color = "white") #设置词云背景，找到字体路径(否则会乱码)

w.generate(txt) #生成词云

w.to_file("govermentwordcloud.png") #保存词云图

• 词云显示

推荐阅读

cmd
NSSROUND#8[Basic]

文章目录一、[NSSRound#8Basic]MyDoor二、[NSSRound#8Basic]Upload_gogoggo三、[NSSRound#8Basic]MyPage四、[ ... [详细]

蜡笔小新 2024-09-29 11:48:56
stream
Linux网络编程：自己动手写高性能HTTP服务器框架（二）

github：https:github.comfroghuiyolandaIO模型和多线程模型实现多线程设计的几个考虑在我们的设计中，mainre ... [详细]

蜡笔小新 2024-09-29 11:22:09
format
开发笔记:Xunit测试使用个人小结

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Xunit测试使用个人小结相关的知识，希望对你有一定的参考价值。因工作中用到xunit测试，故总结下用法，以供个人参考使 ... [详细]

蜡笔小新 2024-09-29 10:56:48
select
Android Studio 使用BottomNavigationView 实现底部 tabs (一)

一、在androidStudio中实现tabs比较简单，新建项目就可以选择tabs模板进行创建，默认实现tabs功能：直接运行项目就可以看到效果：可以说非常简单，但是我们在实际开发 ... [详细]

蜡笔小新 2024-09-28 19:42:55
python
PyQt 如何创建自定义QWidget

这篇文章主要介绍了PyQt如何创建自定义QWidget，帮助大家更好的理解和学习使用pyqt，感 ... [详细]

蜡笔小新 2024-09-28 17:51:22
client
C#设计模式(8)——桥接模式（Bridge Pattern）

原文地址：http:www.cnblogs.comzhilipBridgePattern.html原文作者：Learninghard原文出处：博客园一、引言 ... [详细]

蜡笔小新 2024-09-28 15:11:33
import
QT上位机串口通信点亮STM32的LED灯

QT串口通信文章目录QT串口通信前言一、Pycharm代码二、STM32代码前言前几天学了QT，只设计界面并没有用处，于是我便学习了QT的串口通信。Q ... [详细]

蜡笔小新 2024-09-28 13:33:23
format
黑马程序员——OC语言——内存管理

———Java培训、Android培训、iOS培训、.Net培训、期待与您交流！———一、引用计数器每个OC对象都有自己的引用计数器，表示“对象被引用 ... [详细]

蜡笔小新 2024-09-28 12:42:08
process
FP-Growth 和 K-Means 学习报告

最近学习了数据挖掘常用的两种算法：FP-Growth和K-Means。现在把我的学习结果分享给大家。以下是本文的目录，大家可以根据需要跳过一些章节：1.FP-Grow ... [详细]

蜡笔小新 2024-09-28 09:23:32
import
ArcPy读取excel中的X、Y坐标值，转为点要素

#-*-coding:utf-8-*-#使用方法是，在main中设置输入和输出的文件，然后直接调用XY2POINT()这个函数，输入要使 ... [详细]

蜡笔小新 2024-09-28 08:45:46
import
11 微服务网关（一）概念介绍 Zuul简单入门

11.1服务网关的概念11.1.1什么是微服务网关11.1.2作用和应用场景11.2常见的API网关实现方式11.3基于Nginx的网关实现IP地址映射到路径，统一 ... [详细]

蜡笔小新 2024-09-27 23:59:10
import
Android开发之Notification（实现消息弹窗、提示音以及点击事件）

文章目录通知管理器通知渠道通知发送通知更多效果添加点击事件取消消息通知管理器通知管理器（NotificationManager）类是一个通知管理器&# ... [详细]

蜡笔小新 2024-09-27 19:48:48
format
各大网站IP地址库及接口说明

淘宝http:ip.taobao.cominstructions.php接口说明请求接口（GET）：servicegetIpInfo.ph ... [详细]

蜡笔小新 2024-09-29 12:05:34
request
Android中如何获取网页源码？

技术点：1、通过已知的网页路径获得流2、把流转换成字节数组3、把字节数组转换成String字符串显示在TextView控件中一、获得流publicstaticSt ... [详细]

蜡笔小新 2024-09-29 11:56:16
case
2019 年 Firebase 峰会上发布的新功能

作者FrancisMa,HeadofProductFirebase的使命是帮助移动开发者和Web开发者迈向成功，但考虑到Firebase每个月有超过200万个活跃的应 ... [详细]

蜡笔小新 2024-09-28 08:07:01

lovely尤研君2007

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章