首页
技术博客
PHP教程
数据库技术
前端开发
HTML5
Nginx
php论坛
新用户注册
|
会员登录
PHP教程
技术博客
编程问答
PNG素材
编程语言
前端技术
Android
PHP教程
HTML5教程
数据库
Linux技术
Nginx技术
PHP安全
WebSerer
职场攻略
JavaScript
开放平台
业界资讯
大话程序猿
登录
极速注册
取消
热门标签 | HotTags
sum
callback
timezone
bit
request
hashset
input
config
heatmap
int
yaml
php7
command
window
c语言
testing
usb
actionscrip
eval
javascript
java
future
schema
blob
cpython
httprequest
python3
bytecode
case
object
grid
subset
chat
数组
match
bitmap
shell
string
buffer
iostream
vba
cSharp
random
perl
header
post
web3
export
main
replace
copy
text
express
integer
settings
hashcode
controller
select
foreach
instance
timestamp
default
list
node.js
solr
fetch
heap
require
cookie
import
keyword
jar
ascii
merge
dll
email
php5
jsp
cmd
当前位置:
开发笔记
>
编程语言
> 正文
R语言之中文分词:实例
作者:pomngjkldjg_849_788 | 来源:互联网 | 2023-07-23 21:08
一、说明网上提供的一个例子,做了修改与订正。二、程序#调入分词的库library(rJava)library(Rwordseg)#调入绘制词云的库library(RCol
一、说明
网上提供的一个例子,做了修改与订正。
二、程序
#调入分词的库
library("rJava")
library("Rwordseg")
#调入绘制词云的库
library("RColorBrewer")
library("wordcloud")
#读入数据(特别注意,read.csv竟然可以读取txt的文本)
myfile<-read.csv(file.choose(),header=FALSE)
#预处理,这步可以将读入的文本转换为可以分词的字符,没有这步不能分词
myfile.res <- myfile[myfile!=" "]
#分词,并将分词结果转换为向量
myfile.words <- unlist(lapply(X = myfile.res,FUN = segmentCN))
#剔除URL等各种不需要的字符,还需要删除什么特殊的字符可以依样画葫芦在下面增加gsub的语句
myfile.words <- gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",myfile.words)
myfile.words <- gsub("\n","",myfile.words)
myfile.words <- gsub(" ","",myfile.words)
#去掉停用词
data_stw=read.table(file=file.choose(),colClasses="character")
stopwords_CN=c(NULL)
for(i in 1:dim(data_stw)[1]){
stopwords_CN=c(stopwords_CN,data_stw[i,1])
}
for(j in 1:length(stopwords_CN)){
myfile.words <- subset(myfile.words,myfile.words!=stopwords_CN[j])
}
#过滤掉1个字的词
myfile.words <- subset(myfile.words, nchar(as.character(myfile.words))>1)
#统计词频
myfile.freq <- table(unlist(myfile.words))
myfile.freq <- rev(sort(myfile.freq))
#myfile.freq <- data.frame(word=names(myfile.freq),freq=myfile.freq);
#按词频过滤词,过滤掉只出现过一次的词,这里可以根据需要调整过滤的词频数
#特别提示:此处注意myfile.freq$Freq大小写
myfile.freq2=subset(myfile.freq, myfile.freq$Freq>=10)
#绘制词云
#设置一个颜色系:
mycolors <- brewer.pal(8,"Dark2")
#设置字体
windowsFonts(myFOnt=windowsFont("微软雅黑"))
#画图
wordcloud(myfile.freq2$word,myfile.freq2$Freq,min.freq=10,max.words=Inf,random.order=FALSE,
random.color=FALSE,colors=mycolors,family="myFont")
三、结果
java
cloud
csv
header
list
http
char
subset
colors
写下你的评论吧 !
吐个槽吧,看都看了
会员登录
|
用户注册
推荐阅读
int
PHP GuzzleHttp 无法获取到返回结果
PHP GuzzleHttp 无法获取到返回结果 ...
[详细]
蜡笔小新 2024-09-30 16:03:21
java
找出字符串中重复字符
2019独角兽企业重金招聘Python工程师标准packagejavaBasic;importjava.util.HashMap;importjava.util.Map; ...
[详细]
蜡笔小新 2024-09-30 11:23:11
int
Redis 一、数据结构与对象五大数据类型的底层结构实现
简单动态字符串redis里面很多地方都用到了字符串,我们知道redis是一个键值对存储的非关系型数据库,那么所有的key都是用字符串存储的,还有字符串类型,这些都是用字符串存储的 ...
[详细]
蜡笔小新 2024-09-29 17:23:27
int
openssl 实现https 网站
下面是一个用openssl实现获取https网页内容的demo,整个流程比较简单,主要封装的API如下staticinthttps_init(http ...
[详细]
蜡笔小新 2024-09-29 16:41:10
int
UDP协议开发
UDP是用户数据报协议(UserDatagramProtocol,UDP)的简称,其主要作用是将网络数据流量压缩成数据报形式,提供面向事务的简单信息传送服务。与TCP协议不同,UD ...
[详细]
蜡笔小新 2024-09-28 17:00:36
int
《How Tomcat Works》读书笔记(四)Tomcat Default Connector
为什么80%的码农都做不了架构师?上节《HowTomcatWorks》读书笔记(三),只是讲了一个简单的connect ...
[详细]
蜡笔小新 2024-09-28 13:08:21
int
FP-Growth 和 K-Means 学习报告
最近学习了数据挖掘常用的两种算法:FP-Growth和K-Means。现在把我的学习结果分享给大家。以下是本文的目录,大家可以根据需要跳过一些章节:1.FP-Grow ...
[详细]
蜡笔小新 2024-09-28 09:23:32
object
HttpClientDemo
post请求,携带json对象参数模拟获取tokenpublicstaticStringgetToken()throwsIOException{创建连接CloseableHttp ...
[详细]
蜡笔小新 2024-09-27 19:18:58
object
R语言基础_数据导入&保存
数据分析文件常用的储存格式为CSV(.csv)和EXCEL(.xlsx),其余文 ...
[详细]
蜡笔小新 2024-09-25 10:28:05
schema
POI编程
POI编程1简介在我们实际的开发中,表现层的解决方案虽然有多样,但是IE浏览器已成为最多人使用的浏览器,因为大家都用Windows。在企业办公系统中 ...
[详细]
蜡笔小新 2024-09-24 21:34:09
request
iOS网络开发(7)大牛们的杰作AFNetworking
本篇文章介绍传说中的 AFN框架的使用AFNetworking是iOS开发中最广泛使用的开源项目之一,是最活跃最有影响力的开源项目之一。   ...
[详细]
蜡笔小新 2024-09-24 20:57:43
int
服务器上的操作系统有哪些,如何选择适合的操作系统?
本文介绍了服务器上常见的操作系统,包括系统盘镜像、数据盘镜像和整机镜像的数量。同时,还介绍了共享镜像的限制和使用方法。此外,还提供了关于华为云服务的帮助中心,其中包括产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问题和视频帮助等技术文档。对于裸金属服务器的远程登录,本文介绍了使用密钥对登录的方法,并提供了部分操作系统配置示例。最后,还提到了SUSE云耀云服务器的特点和快速搭建方法。 ...
[详细]
蜡笔小新 2023-12-12 13:33:19
java
svnWebUI:一款现代化的svn服务端管理软件
svnWebUI是一款图形化管理服务端Subversion的配置工具,适用于非程序员使用。它解决了svn用户和权限配置繁琐且不便的问题,提供了现代化的web界面,让svn服务端管理变得轻松。演示地址:http://svn.nginxwebui.cn:6060。 ...
[详细]
蜡笔小新 2023-12-11 11:01:10
schema
如何使用PHP代码将表格导出为UTF8格式的Excel文件
本文介绍了如何使用PHP代码将表格导出为UTF8格式的Excel文件。首先,需要连接到数据库并获取表格的列名。然后,设置文件名和文件指针,并将内容写入文件。最后,设置响应头部,将文件作为附件下载。 ...
[详细]
蜡笔小新 2023-12-11 00:29:33
object
python3 nmap函数简介及使用方法
本文介绍了python3 nmap函数的简介及使用方法,python-nmap是一个使用nmap进行端口扫描的python库,它可以生成nmap扫描报告,并帮助系统管理员进行自动化扫描任务和生成报告。同时,它也支持nmap脚本输出。文章详细介绍了python-nmap的几个py文件的功能和用途,包括__init__.py、nmap.py和test.py。__init__.py主要导入基本信息,nmap.py用于调用nmap的功能进行扫描,test.py用于测试是否可以利用nmap的扫描功能。 ...
[详细]
蜡笔小新 2023-12-10 12:15:27
pomngjkldjg_849_788
这个家伙很懒,什么也没留下!
Tags | 热门标签
sum
callback
timezone
bit
request
hashset
input
config
heatmap
int
yaml
php7
command
window
c语言
testing
usb
actionscrip
eval
javascript
java
future
schema
blob
cpython
httprequest
python3
bytecode
case
object
RankList | 热门文章
1
OSChina 周六乱弹 —— 你先跳,我吃完粽子再说
2
python3循环
3
poj2593与poj2479
4
CVE20187490
5
(4)什么是Ribbon负载均衡
6
滑动效果的七种方式
7
日本25年来首次干预以支撑日元汇率
8
组件定义
9
Win10系统怎么重装?Win10系统重装教程
10
h5微信f分享链接给对方获取对方手机号_怎么加回微信删除的人?偷偷恢复,亲测有效!...
11
ORA00980: 同义词转换不再有效
12
Redis01 Redis服务端环境搭建
13
史上最全面的运营教程,读完就拿到 30 万年薪
14
Codeforces Add on a Tree
15
删除文件夹中的相邻但名称不同的文件 适应于神经网络训练时的标签名称和图像名称相对应的情况
PHP1.CN | 中国最专业的PHP中文社区 |
DevBox开发工具箱
|
json解析格式化
|
PHP资讯
|
PHP教程
|
数据库技术
|
服务器技术
|
前端开发技术
|
PHP框架
|
开发工具
|
在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |
京公网安备 11010802041100号
|
京ICP备19059560号-4
| PHP1.CN 第一PHP社区 版权所有