当前位置: 开发笔记 > 编程语言 > 正文

[译]用R语言做挖掘数据《二》

作者：keleesen | 来源：互联网 | 2023-05-19 15:20

数据探索一、实验说明1.环境登录无需密码自动登录，系统用户名shiyanlou，密码shiyanlou2.环境介绍本实验环境采用带桌面的UbuntuLinux环境，实验中会用到程序：

数据探索

一、实验说明

1. 环境登录

无需密码自动登录，系统用户名shiyanlou，密码shiyanlou

2. 环境介绍

本实验环境采用带桌面的Ubuntu Linux环境，实验中会用到程序：

1. LX终端（LXTerminal）: Linux命令行终端，打开后会进入Bash环境，可以使用Linux命令
2. GVim：非常好用的编辑器，最简单的用法可以参考课程[Vim编辑器](http://www.shiyanlou.com/courses/2)
3. R:在命令行输入‘R’ 进入R语言的交互式环境，下面的代码都是在交互式环境运行。

3. 环境使用

使用R语言交互式环境输入实验所需的代码及文件，使用LX终端（LXTerminal）运行所需命令进行操作。

完成实验后可以点击桌面上方的“实验截图”保存并分享实验结果到微博，向好友展示自己的学习进度。实验楼提供后台系统截图，可以真实有效证明您已经完成了实验。

实验记录页面可以在“我的主页”中查看，其中含有每次实验的截图及笔记，以及每次实验的有效学习时间（指的是在实验桌面内操作的时间，如果没有操作，系统会记录为发呆时间）。这些都是您学习的真实性证明。

二、课程介绍

这一节课主要介绍使用R语言初步分析数据。首先查看数据的维度、结构以及R数据对象，其次是基本的统计量和图表。接下来是多元数据的分析包括多变量分布、多变量箱型图以及散点图。在后面的例子中将会绘制水平图、热图和3D图，并将图表保存为各种形式的文件。

三、课程内容

1、观察数据

这一章我们将会用到‘iris’数据集，这个数据集属于R中自带的数据，因此不需要额外的加载。首先，查看数据的维度和结构，使用函数dim()和names()可以分别得到数据的维度和数据的列表名称也就是变量名称。使用函数str()和函数attribute()可以查看数据的结构和属性。

> dim(iris) # 维度
> names(iris) # 列名
> str(iris) # 结构
> attribute(iris) # 属性

接下来，查看数据的前5行，使用head()查看数据的前面几行，使用tail()可以查看数据的后面几行。

> iris[1:5,] # 查看1-5行数据
> head(iris) # 查看前6行数据
> tail(iris) # 查看后6行数据

其次，我们可以通过单独的列名称检索数据，下面的代码都可以实现检索‘Sepal.Length’（萼片长度）这个属性的前面10个数据。

> iris[1:10,'Sepal.Length']
> iris$Sepal.Length[1:10] # 一般比较常用的检索方式

结果如下图所示：

2、分析单变量的分布

每一个数值变量的分布都可以使用函数summary()查看，该函数可以得出变量的最小值、最大值、均值、中位数、第一和第三四分位数。

> summary(iris)

结果显示如下：

同样，均值、中位数以及范围可以通过函数mean()、median()以及range()分别实现，下面是通过quantile()函数实现四分位数和百分位数的代码：

> quantile(iris$Sepal.Length)
# 实现10%和30%以及65%的分位数
> quantile(iris$Sepal.Length,c(.1,.3,.65))

接下来，使用var()查看‘Sepal.Length’的方差，并使用函数hist()和density()查看该属性的直方图分布和密度分布。

> var(iris$Sepal.Length) # 方差
> hist(iris$Sepal.Length) # 直方图
> plot(density(iris$Sepal.Length)) # 密度分布图

变量的频数可以通过函数table()查看，使用pie()画饼状图或使用barplot()画条形图。

> table(iris$Species)
> pie(table(iris$Species))
> barplot(table(iris$Species))

条状图如下图所示：

3、分析多元数据

在观察完单独变量的分布之后，我们需要研究两个变量之间的关系。下面我们将会使用函数cov()和cor()计算变量之间的协方差和相关系数。

> cov(iris$Sepal.Length, iris$Petal.Length)
# 计算1-4列属性之间的协方差
> cov(iris[,1:4]) 
# 计算萼片长度和花瓣长度之间的相关系数
> cor(iris$Sepal.Length, iris$Petal.Length) 
> cor(iris[,1:4]) # 计算4个属性之间的相关系数

使用aggregate()返回每种鸢尾花的萼片长度的状态。

# summary这个参数表明使用的是summary()函数查看数据分布状态
> aggregate(Sepal.Length ~ Species, summary, data=iris)

结果显示如下：

使用函数boxplot()绘制箱线图也称箱须图来展示中位数、四分位数以及异常值的分布情况。

> boxplot(Sepal.Length~Species, data=iris)

如下图所示：

上图中，矩形盒中间的横条就是变量的中位数，矩形盒的上下两个边分别是上、下四分位数也称第一四分位数和第三四分位数，最外面的上下两条横线分别是最大值和最小值，至于在virginica这类鸢尾花上面的箱线图外面的一个圆圈就是异常值。

使用plot()函数可以绘制两个数值变量之间的散点图，如果使用with()函数就不需要在变量名之前添加‘iris$’，下面的代码中设置了每种鸢尾花观测值的点的颜色和形状（了解函数或者模块的用法可以通过输入‘?function’查看函数文档）：

# 参数col根据鸢尾花种类设置点的颜色，pch将种类转化为数值型设置点的形状
> with(iris, plot(Sepal.Length, Sepal.Width, col=Species, pch=as.numeric(Species)))

效果图如下：

当点比较多的时候就会有重叠，我们可以在绘图前使用jitter()往数据中添加一些噪声点来减少数据的重叠：

> plot(jitter(iris$Sepal.Length), jitter(iris$Sepal.Width))

通过函数pair()绘制散点图矩阵。

> pairs(iris)

4、拓展

这一节将会学习一些有趣的图，包括3D图、热图和平行坐标图。

> library(scatterplot3d) # 加载包
> scatterplot3d(iris$Petal.Width, iris$Sepal.Length, iris$Sepal.Width) # 3d图
# dist()函数用来计算不同鸢尾花数据的相似度
> distMatrix <- as.matrix(dist(iris[,1:4]))
> heatmap(distMatrix)
# 绘制平行坐标图
> library(MASS)
> parcoord(iris[1:4], col=iris$Species)
> library(lattice)
> parallelplot(~iris[1:4] | Species, data=iris)
> library(ggplot2)
> qplot(Sepal.Length, Sepal.Width, data=iris, facets=Species ~.)

除了上面的图以外，还有更多比较复杂的图可以通过包‘ggplot’实现。

5、将图标保存到文件

在数据分析中会产生很多图片，为了能够在后面的程序中用到那些图表需要将它们保存起来。R提供了很多保存文件的函数。下面的例子就是将图表保存为pdf文件。另外，可以使用函数ps()和postscript()将图片保存为ps文件，使用bmp()、jpeg()、png()以及tiff()可以保存为对应的图片格式文件。注意画完图以后需要使用函数graphics.off()或者dev.off()关闭画图设备。

# 创建一个myPlot.pdf文件，并在里面画图，画完图后关闭图片设备
> pdf("myPlot.pdf")
> x <- 1:50
> plot(x, log(x))
> graphics.off()

更多关于数据挖掘的课程细节请参考：实验楼课程

推荐阅读

export
云服务器环境配置指南：Nginx、Tomcat、JDK与MySQL的安装与设置

本文详细介绍了如何在云服务器上配置Nginx、Tomcat、JDK和MySQL。涵盖从下载、安装到配置的完整步骤，帮助读者快速搭建Java Web开发环境。 ... [详细]

蜡笔小新 2024-12-21 10:18:56
byte
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
default
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
io
Linux 透明防火墙（网桥模式）的部署与配置

本文介绍如何在现有网络中部署基于Linux系统的透明防火墙（网桥模式），以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明，确保内部网络的安全性和稳定性。 ... [详细]

蜡笔小新 2024-12-25 13:17:38
io
PostgreSQL 10 离线安装指南

本文详细介绍了如何在无法联网的服务器上进行 PostgreSQL 10 的离线安装，并涵盖了从下载安装包到配置远程访问的完整步骤。 ... [详细]

蜡笔小新 2024-12-25 11:46:55
jsp
通过Web界面管理Linux日志的解决方案

本指南介绍了一种利用rsyslog、MariaDB和LogAnalyzer搭建集中式日志管理平台的方法，使用户可以通过Web界面查看和分析Linux系统的日志记录。此方案不仅适用于服务器环境，还提供了详细的步骤来确保系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-12-24 17:11:38
byte
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
jsp
Linux 自动化安装脚本详解

本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建，还处理了系统服务的配置和启动，确保在多种 Linux 发行版上都能顺利运行。 ... [详细]

蜡笔小新 2024-12-27 16:33:32
default
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
string
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
runtime
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
install
告别传统文件传输，迎接新一代高效工具Croc

在现代网络环境中，两台计算机之间的文件传输需求日益增长。传统的FTP和SSH方式虽然有效，但其配置复杂、步骤繁琐，难以满足快速且安全的传输需求。本文将介绍一种基于Go语言开发的新一代文件传输工具——Croc，它不仅简化了操作流程，还提供了强大的加密和跨平台支持。 ... [详细]

蜡笔小新 2024-12-26 16:16:06
default
Qt 5.15.2 在银河麒麟龙芯平台打包的实战经验

本文详细记录了在银河麒麟操作系统和龙芯架构上使用 Qt 5.15.2 进行项目打包时遇到的问题及解决方案，特别关注于 linuxdeployqt 工具的应用。 ... [详细]

蜡笔小新 2024-12-26 10:54:04
export
Python开发中使用Virtualenv和Virtualenvwrapper管理虚拟环境

在Python开发过程中，随着项目数量的增加，不同项目依赖于不同版本的库，容易引发依赖冲突。为了避免这些问题，并保持开发环境的整洁，可以使用Virtualenv和Virtualenvwrapper来创建和管理多个隔离的Python虚拟环境。 ... [详细]

蜡笔小新 2024-12-25 12:05:35
byte
解决Classic ASP与PHP HMAC_SHA256哈希结果不一致的问题

本文探讨了如何在Classic ASP中实现与PHP的hash_hmac('SHA256', $message, pack('H*', $secret))函数等效的哈希生成方法。通过分析不同实现方式及其产生的差异，提供了一种使用Microsoft .NET Framework的解决方案。 ... [详细]

蜡笔小新 2024-12-21 10:38:09

keleesen

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章