热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

[译]用R语言做挖掘数据《二》

数据探索一、实验说明1.环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2.环境介绍本实验环境采用带桌面的UbuntuLinux环境,实验中会用到程序:
数据探索

一、实验说明

1. 环境登录

无需密码自动登录,系统用户名shiyanlou,密码shiyanlou

 2. 环境介绍

本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序:

1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令
2. GVim:非常好用的编辑器,最简单的用法可以参考课程[Vim编辑器](http://www.shiyanlou.com/courses/2)
3. R:在命令行输入‘R’  进入R语言的交互式环境,下面的代码都是在交互式环境运行。

3. 环境使用

使用R语言交互式环境输入实验所需的代码及文件,使用LX终端(LXTerminal)运行所需命令进行操作。

完成实验后可以点击桌面上方的“实验截图”保存并分享实验结果到微博,向好友展示自己的学习进度。实验楼提供后台系统截图,可以真实有效证明您已经完成了实验。

实验记录页面可以在“我的主页”中查看,其中含有每次实验的截图及笔记,以及每次实验的有效学习时间(指的是在实验桌面内操作的时间,如果没有操作,系统会记录为发呆时间)。这些都是您学习的真实性证明。

二、课程介绍

这一节课主要介绍使用R语言初步分析数据。首先查看数据的维度、结构以及R数据对象,其次是基本的统计量和图表。接下来是多元数据的分析包括多变量分布、多变量箱型图以及散点图。在后面的例子中将会绘制水平图、热图和3D图,并将图表保存为各种形式的文件。

三、课程内容

1、观察数据

这一章我们将会用到‘iris’数据集,这个数据集属于R中自带的数据,因此不需要额外的加载。首先,查看数据的维度和结构,使用函数dim()和names()可以分别得到数据的维度和数据的列表名称也就是变量名称。使用函数str()和函数attribute()可以查看数据的结构和属性。

> dim(iris) # 维度
> names(iris) # 列名
> str(iris) # 结构
> attribute(iris) # 属性

接下来,查看数据的前5行,使用head()查看数据的前面几行,使用tail()可以查看数据的后面几行。

> iris[1:5,] # 查看1-5行数据
> head(iris) # 查看前6行数据
> tail(iris) # 查看后6行数据

其次,我们可以通过单独的列名称检索数据,下面的代码都可以实现检索‘Sepal.Length’(萼片长度)这个属性的前面10个数据。

> iris[1:10,'Sepal.Length']
> iris$Sepal.Length[1:10] # 一般比较常用的检索方式

结果如下图所示:

2、分析单变量的分布

每一个数值变量的分布都可以使用函数summary()查看,该函数可以得出变量的最小值、最大值、均值、中位数、第一和第三四分位数。

> summary(iris)

结果显示如下:

同样,均值、中位数以及范围可以通过函数mean()、median()以及range()分别实现,下面是通过quantile()函数实现四分位数和百分位数的代码:

> quantile(iris$Sepal.Length)
# 实现10%和30%以及65%的分位数
> quantile(iris$Sepal.Length,c(.1,.3,.65))

接下来,使用var()查看‘Sepal.Length’的方差,并使用函数hist()和density()查看该属性的直方图分布和密度分布。

> var(iris$Sepal.Length) # 方差
> hist(iris$Sepal.Length) # 直方图
> plot(density(iris$Sepal.Length)) # 密度分布图

变量的频数可以通过函数table()查看,使用pie()画饼状图或使用barplot()画条形图。

> table(iris$Species)
> pie(table(iris$Species))
> barplot(table(iris$Species))

条状图如下图所示:

3、分析多元数据

在观察完单独变量的分布之后,我们需要研究两个变量之间的关系。下面我们将会使用函数cov()和cor()计算变量之间的协方差和相关系数。

> cov(iris$Sepal.Length, iris$Petal.Length)
# 计算1-4列属性之间的协方差
> cov(iris[,1:4])
# 计算萼片长度和花瓣长度之间的相关系数
> cor(iris$Sepal.Length, iris$Petal.Length)
> cor(iris[,1:4]) # 计算4个属性之间的相关系数

使用aggregate()返回每种鸢尾花的萼片长度的状态。

# summary这个参数表明使用的是summary()函数查看数据分布状态
> aggregate(Sepal.Length ~ Species, summary, data=iris)

结果显示如下:

使用函数boxplot()绘制箱线图也称箱须图来展示中位数、四分位数以及异常值的分布情况。

> boxplot(Sepal.Length~Species, data=iris)

如下图所示:

上图中,矩形盒中间的横条就是变量的中位数,矩形盒的上下两个边分别是上、下四分位数也称第一四分位数和第三四分位数,最外面的上下两条横线分别是最大值和最小值,至于在virginica这类鸢尾花上面的箱线图外面的一个圆圈就是异常值。

使用plot()函数可以绘制两个数值变量之间的散点图,如果使用with()函数就不需要在变量名之前添加‘iris$’,下面的代码中设置了每种鸢尾花观测值的点的颜色和形状(了解函数或者模块的用法可以通过输入‘?function’查看函数文档):

# 参数col根据鸢尾花种类设置点的颜色,pch将种类转化为数值型设置点的形状
> with(iris, plot(Sepal.Length, Sepal.Width, col=Species, pch=as.numeric(Species)))

效果图如下:

当点比较多的时候就会有重叠,我们可以在绘图前使用jitter()往数据中添加一些噪声点来减少数据的重叠:

> plot(jitter(iris$Sepal.Length), jitter(iris$Sepal.Width))

通过函数pair()绘制散点图矩阵。

> pairs(iris) 

4、拓展

这一节将会学习一些有趣的图,包括3D图、热图和平行坐标图。

> library(scatterplot3d) # 加载包
> scatterplot3d(iris$Petal.Width, iris$Sepal.Length, iris$Sepal.Width) # 3d图
# dist()函数用来计算不同鸢尾花数据的相似度
> distMatrix <- as.matrix(dist(iris[,1:4]))
> heatmap(distMatrix)
# 绘制平行坐标图
> library(MASS)
> parcoord(iris[1:4], col=iris$Species)
> library(lattice)
> parallelplot(~iris[1:4] | Species, data=iris)
> library(ggplot2)
> qplot(Sepal.Length, Sepal.Width, data=iris, facets=Species ~.)

除了上面的图以外,还有更多比较复杂的图可以通过包‘ggplot’实现。

5、将图标保存到文件

在数据分析中会产生很多图片,为了能够在后面的程序中用到那些图表需要将它们保存起来。R提供了很多保存文件的函数。下面的例子就是将图表保存为pdf文件。另外,可以使用函数ps()和postscript()将图片保存为ps文件,使用bmp()、jpeg()、png()以及tiff()可以保存为对应的图片格式文件。注意画完图以后需要使用函数graphics.off()或者dev.off()关闭画图设备。

# 创建一个myPlot.pdf文件,并在里面画图,画完图后关闭图片设备
> pdf("myPlot.pdf")
> x <- 1:50
> plot(x, log(x))
> graphics.off()

更多关于数据挖掘的课程细节请参考:实验楼课程


推荐阅读
  • 开机自启动的几种方式
    0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录,这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]
  • 本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题,并提供了详细的解决方案和建议。 ... [详细]
  • 数字图书馆近期展出了一批精选的Linux经典著作,这些书籍虽然部分较为陈旧,但依然具有重要的参考价值。如需转载相关内容,请务必注明来源:小文论坛(http://www.xiaowenbbs.com)。 ... [详细]
  • 本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤,包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践,涵盖节点选择、网络优化和性能调优等方面,旨在提升系统的稳定性和处理能力。此外,还提供了常见的故障排查方法和监控方案,帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 本文介绍了几种常用的图像相似度对比方法,包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点,适用于不同的应用场景。 ... [详细]
  • javascript分页类支持页码格式
    前端时间因为项目需要,要对一个产品下所有的附属图片进行分页显示,没考虑ajax一张张请求,所以干脆一次性全部把图片out,然 ... [详细]
  • 本文将详细介绍如何在Mac上安装Jupyter Notebook,并提供一些常见的问题解决方法。通过这些步骤,您将能够顺利地在Mac上运行Jupyter Notebook。 ... [详细]
  • 本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法,文章提供了多种实用技巧,帮助用户高效地生成高质量的动态图像视频。此外,还探讨了不同视频编码器的选择及其对输出文件质量的影响,为读者提供了全面的技术指导。 ... [详细]
  • 在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]
  • 本文介绍了如何利用Shell脚本高效地部署MHA(MySQL High Availability)高可用集群。通过详细的脚本编写和配置示例,展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程,还提高了系统的稳定性和可用性。 ... [详细]
  • Amoeba 通过优化 MySQL 的读写分离功能显著提升了数据库性能。作为一款基于 MySQL 协议的代理工具,Amoeba 能够高效地处理应用程序的请求,并根据预设的规则将 SQL 请求智能地分配到不同的数据库实例,从而实现负载均衡和高可用性。该方案不仅提高了系统的并发处理能力,还有效减少了主数据库的负担,确保了数据的一致性和可靠性。 ... [详细]
  • SSAS入门指南:基础知识与核心概念解析
    ### SSAS入门指南:基础知识与核心概念解析Analysis Services 是一种专为决策支持和商业智能(BI)解决方案设计的数据引擎。该引擎能够为报告和客户端应用提供高效的分析数据,并支持在多维数据模型中构建高性能的分析应用。通过其强大的数据处理能力和灵活的数据建模功能,Analysis Services 成为了现代 BI 系统的重要组成部分。 ... [详细]
  • PHP网站日志深度解析与数据洞察分析
    通过对PHP网站日志进行深入解析与数据洞察分析,可以有效提升网站性能和用户体验。由于网站日志数据量庞大,通常需要借助专业的日志分析工具来处理。常用的工具包括光年日志分析工具和WebLog Expert等,这些工具能够帮助技术人员快速识别并解决网站运行中的各种问题,从而优化SEO效果和提升整体运营效率。 ... [详细]
  • PHP开发人员薪资水平分析:工程师平均工资概况
    PHP开发人员薪资水平分析:工程师平均工资概况 ... [详细]
author-avatar
keleesen
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有