热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python生成词云_数据统计可视化——python生成词云

词云又称文字云,近几年非常流行。你要说它为什么会变火呢?有的人会认为它是文本挖掘的可视化、有的人会给一些用户打上标签、有的人则只是想玩玩这酷炫的词汇……

词云又称文字云,近几年非常流行。你要说它为什么会变火呢?有的人会认为它是文本挖掘的可视化、有的人 会给一些用户打上标签、有的人则只是想玩玩这酷炫的词汇……但词云产生的视觉效果才是让人更着迷的地方。

词云主要是对文本中出现频率较高的“关键词”进行视觉上的突出,让人更直观地看出文本的重点。本文针对上一篇文章如何统计文章词频,从而更快了解一篇文章所获得的中文词频统计数据进行词云可视化展示,更加清晰的看到文章关键词的权重。

词云库WordCloud

wordcloud库,可以说是python非常优秀的词云展示第三方库。词云以词语为基本单位更加直观和艺术的展示文本而且使用简单,内容丰富,先看看它生成的词云是什么样的。

3b08e5b4d739958f05d71b47fad1146a.png

该库主要有以下函数:

1.fit_words(frequencies) 该函数根据词频生成词云

2.generate_from_frequencies(frequencies[, ……]) 根据词频生成词

3.generate(text) 根据文本生成词云

4.process_text(text) 将长文本分词并去除屏蔽词(此处指英语,中文分词还是需要自己用别的库先行实现,使用上面的 fit_words(frequencies) )

5.recolor([random_state, color_func, colormap]) 对现有输出重新着色。重新上色会比重新生成整个词云快很多

6.to_array() 转化为 numpy array

7.to_file(filename) 输出到文件

wordcloud的参数主要有:

font_path: 设置字体路径,因为对中文处理的时候需要指定字体;

width,height:输出画布的宽度和高度;

mask:制定图片绘制词云,如果参数为空,则使用二维遮罩绘制词云。如果 mask 非空,设置的宽高值将被忽略,遮罩形状被 mask 取代。

统计词频词云

根据上面描述的wordcloud库,就可以用来做词云,这里用python3.6进行编写。

第一步先定义一个词频背景图,作为词云的载体。用来作为wordcloud中mask参数。mask = np.array(Image.open('u0.jpg'))。u0.jpg如图所示

f812ae5e60b138051d93a450bf2d529a.png

第二步声明创建wordcloud对象,里面传入参font_path,mask,max_words,max_font_size。分别代表字体格式路径,绘制词云的背景图,词云最多显示词数,字体最大值。

0b667a1a82a965f4e8b720d9ae20b308.png

第三步调用generate_from_frequencies方法,参数为上一篇中统计词频的字典count。

第四步调用to_file方法保存生成的词云图片

b5807c033ff3959a43d9d3fe4fac3a6c.png

最后效果

a5f44e37a1b993f02b8411dd31be52a1.png

还可以将u0.jpg换成更加个性的图片,生成更加好看的词云形状,比如下图

63a2964a5d94138deefa767431b404c0.png
28427fd911f3a68534892af6f3c1ad17.png



推荐阅读
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • 怀疑是每次都在新建文件,具体代码如下 ... [详细]
  • 【MicroServices】【Arduino】装修甲醛检测,ArduinoDart甲醛、PM2.5、温湿度、光照传感器等,数据记录于SD卡,Python数据显示,UI5前台,微服务后台……
    这篇文章介绍了一个基于Arduino的装修甲醛检测项目,使用了ArduinoDart甲醛、PM2.5、温湿度、光照传感器等硬件,并将数据记录于SD卡,使用Python进行数据显示,使用UI5进行前台设计,使用微服务进行后台开发。该项目还在不断更新中,有兴趣的可以关注作者的博客和GitHub。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • Android自定义控件绘图篇之Paint函数大汇总
    本文介绍了Android自定义控件绘图篇中的Paint函数大汇总,包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数,可以更好地掌握Paint的用法。 ... [详细]
  • 从零基础到精通的前台学习路线
    随着互联网的发展,前台开发工程师成为市场上非常抢手的人才。本文介绍了从零基础到精通前台开发的学习路线,包括学习HTML、CSS、JavaScript等基础知识和常用工具的使用。通过循序渐进的学习,可以掌握前台开发的基本技能,并有能力找到一份月薪8000以上的工作。 ... [详细]
  • 开源Keras Faster RCNN模型介绍及代码结构解析
    本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构,包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]
  • Python使用Pillow包生成验证码图片的方法
    本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号,并添加干扰象素,生成一幅验证码图片。需要配置好Python环境,并安装Pillow库。代码实现包括导入Pillow包和随机模块,定义随机生成字母、数字和字体颜色的函数。 ... [详细]
  • 如何使用Python从工程图图像中提取底部的方法?
    本文介绍了使用Python从工程图图像中提取底部的方法。首先将输入图片转换为灰度图像,并进行高斯模糊和阈值处理。然后通过填充潜在的轮廓以及使用轮廓逼近和矩形核进行过滤,去除非矩形轮廓。最后通过查找轮廓并使用轮廓近似、宽高比和轮廓区域进行过滤,隔离所需的底部轮廓,并使用Numpy切片提取底部模板部分。 ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
  • 花瓣|目标值_Compose 动画边学边做夏日彩虹
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Compose动画边学边做-夏日彩虹相关的知识,希望对你有一定的参考价值。引言Comp ... [详细]
author-avatar
神游一梦
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有