当前位置: 开发笔记 > 编程语言 > 正文

关于数据处理包dplyr的函数用法总结

作者：枪手杰_863 | 来源：互联网 | 2023-08-24 17:00

原标题：关于数据处理包dplyr的函数用法总结dplyr专注处理dataframe对象,并提供更稳健的与其它数据库对象间的接口。

原标题：关于数据处理包dplyr的函数用法总结

dplyr专注处理dataframe对象, 并提供更稳健的与其它数据库对象间的接口。

一、5个关键的数据处理函数：

select() 返回列的子集
filter() 返回行的子集
arrange() 根据一个或多个变量对行排序。
mutate() 使用已有数据创建新的列
summarise() 对各个群组汇总计算并返回一维结果。

Tips：

1、select()

Dplyr包有下列辅助函数，用于在select()中选择变量：

starts_with("X"): 以 "X"开头的变量名
ends_with("X"): 以 "X"结束的变量名
contains("X"): 包含 "X"的变量名
matches("X"): 匹配正则表达式“x"的变量名
num_range("x", 1:5): 变量名为 x01, x02, x03, x04 and x05
one_of(x): 出现在字符向量x中的所有变量名

在select()中直接使用列时不需要引用""，但使用上述辅助函数时必须引用""。

2、filter()

R 有一系列逻辑表达式可用于filter()中：

x = y；x > y；x %in% c(a, b, c)

示例：

filter(df, a > 0, b > 0)

filter(df, !is.na(x))

3、arrange()

arrange()默认从小到大排序，在arrange()中使用desc()作用于变量可以使之从大到小排序.

4、mutate()

mutate()允许在同一次调用中使用新变量来创建下一个变量，例如：

mutate(my_df, x = a + b, y = x + c)

5、 summarise（）

R的下列聚合函数可用于 summarise()中

min(x) - 最小值.

max(x) - 最大值

mean(x) - 平均值

median(x) - 中位数

quantile(x, p) - x的第P个分位数

sd(x) -标准差

var(x) - 方差

IQR(x) - 四分位数

diff(range(x)) - x值的范围

dplyr包自身提供了一些有用的聚合函数：

first(x) - 向量x中的第1个元素

last(x) - 向量x中的最后1个元素

nth(x, n) - 向量x中的第n个元素

n() - data.frame中的行数或 summarise() 描述的观测组的数量

n_distinct(x) - 向量x中唯一值的数量

二、管道函数%>%

dplyr包中特有的管道函数%>%，将上一个函数的输出作为下一个函数的输入。

%>%运算符允许从参数列表中提取函数的第一个参数，并放置在%>%前面。

下面两条指令相等：

mean(c(1, 2, 3, NA), na.rm = TRUE)

c(1, 2, 3, NA) %>% mean(na.rm = TRUE)

三、分组函数group_by()

对数据集文章来源站点https://www.yii666.com/定义群组。然后可对各个群组分别进行汇总统计。

通过 grouwww.yii666.comp_by() 添加了分组信息后,mutate(), arrange() 和 summarise() 函数会自动对这些 tbl 类数据执行分组操作。

group_by(dataframe,colnames1,colnames2,…)

四、连接数据（joins）

1、6种连接函数如下：

left_join(dataset1,dataset2)
right_join(dataset1,dataset2)

inner_join(dataset1,dataset2,by=c(“”))

full_join(dataset1,dataset2, by = c("first", "last"))

semi_join(dataset1,dataset2, by = c("first", "last"))

anti_join(dataset1,dataset2, by = c("first", "last"))

前4种属于变形连接（mutating joins），后2种属于过滤连接（filtering joins）。

semi-joins基于第二个数据集的信息来过滤第一个数据集的数据。anti-joins找出合并时哪些行不能匹配第二个数据集

2、key值

R语言的 data frames可在 row.names属性中存储重要信息，虽然不是存储数据的好方式却很常见。如果数据集的主关键字在row.names中，将难以与其他数据集连接。一种解决方法是使用tibble包（tibble：a data frame with class tbl_df)中的rownames_to_column()函数，返回该数据集的副本，并且行名作为一列增加到该数据中。

library(tibble)

rownames_to_column(data, var="name")

如果两个数据集有相同的列名，但代表的事物不同，并且by参数不包含这些重复的列名，dplyr会忽略这些列名，并对相同的列名增加.x和 .y来帮助区分列。

当两个数据集中相同的事物有不同的列名，要完成合并，将by设置为一个命名向量。向量的名字为主数据集中的列名，向量的值为第二个数据集中的列名。例如：

x %>% left_join(y, bwww.yii666.comy = c("x.name" = "y.name"))

完成连接后保留主数据集中的列名。

3、多个数据集的连接

Purrr包中的 reduce()函数对多个数据集重复应用某函数，可用于连接多个数据集，与dplyr的join类函数配合使用，例如：
library(purrr)
list(data1,data2,data3) %>% reduce(left_join,by = c("first","last"))

五、集合操作（set operations）

dplyr提供了intersection、union和setdif文章来源地址154458.htmlf用于获得数据集的交集、并集和差集。

六、组装数据assembling data

使用如下函数：

bind_rows(文章来源地址154458.html)

bind_cols() ：将多个data frame合成单个data frame

data_frame() : 将一系列列向量组合成data frame

as_data_frame() :将list转换成data frame

以上这篇关于数据处理包dplyr的函数用法总结就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持yii666。

来源于：关于数据处理包dplyr的函数用法总结

推荐阅读

sum
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
python
lua语言闭包、模式匹配、日期、编译、模块的特性及应用

本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ... [详细]

蜡笔小新 2023-12-14 18:18:21
sum
Oracle分析函数first_value()和last_value()的用法及原理

本文介绍了Oracle分析函数first_value()和last_value()的用法和原理，以及在查询销售记录日期和部门中的应用。通过示例和解释，详细说明了first_value()和last_value()的功能和不同之处。同时，对于last_value()的结果出现不一样的情况进行了解释，并提供了理解last_value()默认统计范围的方法。该文对于使用Oracle分析函数的开发人员和数据库管理员具有参考价值。 ... [详细]

蜡笔小新 2023-12-13 19:07:23
sum
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
sum
Monkey《大话移动——Android与iOS应用测试指南》的预购信息发布啦！

Monkey《大话移动——Android与iOS应用测试指南》的预购信息已经发布，可以在京东和当当网进行预购。感谢几位大牛给出的书评，并呼吁大家的支持。明天京东的链接也将发布。 ... [详细]

蜡笔小新 2023-12-14 18:57:09
copy
PHP图片截取方法及应用实例

本文介绍了使用PHP动态切割JPEG图片的方法，并提供了应用实例，包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用，以及图片切割的具体步骤。同时，还提供了一些注意事项和优化建议。通过本文的学习，读者可以掌握PHP图片截取的技巧，实现自己的需求。 ... [详细]

蜡笔小新 2023-12-14 16:44:09
sum
HDU 2372 El Dorado（DP）的最长上升子序列长度求解方法

本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法，通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]

蜡笔小新 2023-12-14 15:08:18
copy
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
text
南邮ctf-web的writeup

本文介绍了南邮ctf-web的writeup，包括签到题和md5 collision。在CTF比赛和渗透测试中，可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型，可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]

蜡笔小新 2023-12-13 10:58:55
python
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
python
Python拼接字符串的七种方式

这篇文章主要介绍了Python拼接字符串的七种方式，包括使用%、format()、join()、f-string等方法。每种方法都有其特点和限制，通过本文的介绍可以帮助读者更好地理解和运用字符串拼接的技巧。 ... [详细]

蜡笔小新 2023-12-12 11:15:18
python
模板引擎StringTemplate的使用方法和特点

本文介绍了模板引擎StringTemplate的使用方法和特点，包括强制Model和View的分离、Lazy-Evaluation、Recursive enable等。同时，还介绍了StringTemplate语法中的属性和普通字符的使用方法，并提供了向模板填充属性的示例代码。 ... [详细]

蜡笔小新 2023-12-11 21:45:03
web
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
tree
HashMap的相关问题及其底层数据结构和操作流程

本文介绍了关于HashMap的相关问题，包括其底层数据结构、JDK1.7和JDK1.8的差异、红黑树的使用、扩容和树化的条件、退化为链表的情况、索引的计算方法、hashcode和hash()方法的作用、数组容量的选择、Put方法的流程以及并发问题下的操作。文章还提到了扩容死链和数据错乱的问题，并探讨了key的设计要求。对于对Java面试中的HashMap问题感兴趣的读者，本文将为您提供一些有用的技术和经验。 ... [详细]

蜡笔小新 2023-12-10 17:07:36
const
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34

枪手杰_863

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章