当前位置: 开发笔记 > 编程语言 > 正文

python随机分组的思路_python数据聚合与分组

作者：水果jia | 来源：互联网 | 2023-10-11 20:52

前面讲完了字符处理，但对数据进行整体性的聚合运算以及分组操作也是数据分析的重要内容。通过数据的聚合与分组，我们能更容易的发现隐藏在数据中的规律。数据

前面讲完了字符处理&＃xff0c;但对数据进行整体性的聚合运算以及分组操作也是数据分析的重要内容。

通过数据的聚合与分组&＃xff0c;我们能更容易的发现隐藏在数据中的规律。

数据分组

数据的分组核心思想是&＃xff1a;拆分-组织-合并

首先&＃xff0c;我们了解下groupby这个函数

import numpy as np

import pandas as pd

data&＃61;pd.DataFrame({&＃39;level&＃39;:[&＃39;a&＃39;,&＃39;b&＃39;,&＃39;c&＃39;,&＃39;b&＃39;,&＃39;a&＃39;],

&＃39;num&＃39;:[3,5,6,8,9]})

print(data)

结果为&＃xff1a;

combine&＃61;data[&＃39;num&＃39;].groupby(data[&＃39;level&＃39;])

print(combine.mean())

结果为&＃xff1a;

这里是以level为关键字对num进行分组&＃xff0c;然后求平均值。当然groupby中也可以放入多个分组&＃xff0c;用逗号隔开

print(combine.size())

结果为&＃xff1a;

返回每个分组的频率

另外&＃xff0c;我们也可以根据数据的所属类型对进行分组

combine&＃61;data.groupby(data.dtypes,axis&＃61;1)

print(dict(list(combine)))

结果为&＃xff1a;

这里combine的是Serise数据结构&＃xff0c;需要转换线转换为列表&＃xff0c;再转成字典的形式才能打印。

data&＃61;pd.DataFrame(np.random.randn(5,5),

index&＃61;[&＃39;li&＃39;,&＃39;chen&＃39;,&＃39;wang&＃39;,&＃39;zhao&＃39;,&＃39;qian&＃39;],

columns&＃61;[&＃39;a&＃39;,&＃39;b&＃39;,&＃39;c&＃39;,&＃39;d&＃39;,&＃39;e&＃39;])

print(data)

结果为&＃xff1a;

data.ix[1:3,[&＃39;b&＃39;,&＃39;c&＃39;]]&＃61;np.nan

map&＃61;{&＃39;a&＃39;:&＃39;ss&＃39;,&＃39;b&＃39;:&＃39;kk&＃39;,&＃39;c&＃39;:&＃39;ss&＃39;,&＃39;d&＃39;:&＃39;kk&＃39;,&＃39;e&＃39;:&＃39;kk&＃39;}

print(data.groupby(map,axis&＃61;1).sum())

结果为&＃xff1a;

这里map是我们手工创造的字典&＃xff0c;然后我们根据字典的对应表对data数据的行进行分组求和。

数据聚合

在各计算机语言中&＃xff0c;聚合函数几乎都差不多&＃xff0c;下面我们来看下python中的聚合函数

当然&＃xff0c;我们也可以通过自定义函数来扩展方法。

跟上面直接在数据后面加聚合函数方法略有不同&＃xff0c;聚合函数这里也可以传入agg或aggregate中

data&＃61;pd.DataFrame({&＃39;level&＃39;:[&＃39;a&＃39;,&＃39;b&＃39;,&＃39;c&＃39;,&＃39;b&＃39;,&＃39;a&＃39;],

&＃39;num&＃39;:[3,5,6,8,9]})

newdata&＃61;data.groupby(&＃39;level&＃39;)

print(newdata.agg(&＃39;mean&＃39;))

结果为&＃xff1a;

print(newdata.agg([&＃39;mean&＃39;,&＃39;sum&＃39;,&＃39;std&＃39;]))

也可以多个聚合函数一起使用&＃xff1a;

还能用字典的形式进行聚合运算

data&＃61;pd.DataFrame({&＃39;level&＃39;:[&＃39;a&＃39;,&＃39;b&＃39;,&＃39;c&＃39;,&＃39;b&＃39;,&＃39;a&＃39;],

&＃39;num&＃39;:[3,5,6,8,9],

&＃39;num1&＃39;:[2,5,9,6,8]})

newdata&＃61;data.groupby(&＃39;level&＃39;)

print(newdata.agg({&＃39;num&＃39;:&＃39;mean&＃39;,&＃39;num1&＃39;:&＃39;sum&＃39;}))

结果为&＃xff1a;

接下来我们了解下transform

data&＃61;pd.DataFrame(np.random.randn(5,5),

index&＃61;[&＃39;li&＃39;,&＃39;chen&＃39;,&＃39;wang&＃39;,&＃39;zhao&＃39;,&＃39;qian&＃39;],

columns&＃61;[&＃39;a&＃39;,&＃39;b&＃39;,&＃39;c&＃39;,&＃39;d&＃39;,&＃39;e&＃39;])

key&＃61;[&＃39;ss&＃39;,&＃39;kk&＃39;,&＃39;kk&＃39;,&＃39;ss&＃39;,&＃39;ss&＃39;]

print(data.groupby(key).mean())

结果为

正常求均值之后&＃xff0c;会独立形成一个dataframe

print(data.groupby(key).transform(np.mean))

结果为&＃xff1a;

而在使用transform时&＃xff0c;在直接在原来的数据格式下形成新的均值表

这个过程中&＃xff0c;经历了数据的拆分&＃xff0c;求均值&＃xff0c;然后再合并

接下来我们看下更强大的apply

之所以说apply的强大在于&＃xff0c;可以我们通过自定义函数&＃xff0c;实现我们任何想要的形式对数据进行聚合运算&＃xff0c;

但这也是apply相对而言较难的地方&＃xff0c;关键点在于如何构造自定义函数。

data&＃61;pd.DataFrame({&＃39;level&＃39;:[&＃39;a&＃39;,&＃39;b&＃39;,&＃39;c&＃39;,&＃39;b&＃39;,&＃39;a&＃39;],

&＃39;num&＃39;:[3,5,6,8,9],

&＃39;num1&＃39;:[2,5,9,6,8]})

def fun(data):

return data.groupby(&＃39;level&＃39;).agg([&＃39;mean&＃39;,&＃39;sum&＃39;])

print(data)

结果为&＃xff1a;

print(data.groupby(&＃39;level&＃39;).apply(fun))

结果为&＃xff1a;

最后&＃xff0c;在数据分析中&＃xff0c;我们经常要用到的一个excel功能是数据透视表&＃xff0c;这对我们观察数据规律十分有帮助&＃xff0c;

在python中也可以通过pivot_table实现数据透视功能

data&＃61;pd.DataFrame({&＃39;level&＃39;:[&＃39;a&＃39;,&＃39;b&＃39;,&＃39;c&＃39;,&＃39;b&＃39;,&＃39;a&＃39;],

&＃39;key&＃39;:[&＃39;one&＃39;,&＃39;two&＃39;,&＃39;one&＃39;,&＃39;two&＃39;,&＃39;one&＃39;],

&＃39;num&＃39;:[3,5,6,8,9],

&＃39;num1&＃39;:[2,5,9,6,8]})

print(data)

结果为&＃xff1a;

print(data.pivot_table(index&＃61;&＃39;key&＃39;,columns&＃61;&＃39;level&＃39;))

结果为&＃xff1a;

当然只有你调整参数内容就可以像excel中随心所欲的变化行列位置&＃xff0c;这里的计数结果默认为均值&＃xff0c;用其他聚合函数可以通过aggfunc参数进行设置。

另外还有一个用于计算分组频率的cosstab,使用方法比pivot_table要简单些&＃xff0c;形式也类似于execl的数据透视表功能。

print(pd.crosstab(data.key,data.level,margins&＃61;True))

结果为

推荐阅读

runtime
为何 TypeScript 如此流行而 Python 类型注解却鲜少使用？

本文探讨了Python类型注解使用率低下的原因，主要归结于历史背景和投资回报率（ROI）的考量。文章不仅分析了类型注解的实际效用，还回顾了Python类型注解的发展历程。 ... [详细]

蜡笔小新 2024-11-22 14:02:28
runtime
基于OpenCV和Python的边缘检测与四点变换实现

本文介绍了如何利用OpenCV库进行图像的边缘检测，并通过Canny算法提取图像中的边缘。随后，文章详细说明了如何识别图像中的特定形状（如矩形），并应用四点变换技术对目标区域进行透视校正。 ... [详细]

蜡笔小新 2024-11-22 11:31:52
runtime
Python技巧：将相同元素聚合至矩阵

本文探讨了如何在Python中将具有相同值的元素分组到矩阵中，这是一个在数据分析和处理中常见的需求。 ... [详细]

蜡笔小新 2024-11-21 17:07:12
java
在OpenCV 3.1.0中实现SIFT与SURF特征检测

本文介绍如何在OpenCV 3.1.0版本中通过Python 2.7环境使用SIFT和SURF算法进行图像特征点检测。由于这些高级功能在OpenCV 3.0.0及更高版本中被移至额外的contrib模块，因此需要特别处理才能正常使用。 ... [详细]

蜡笔小新 2024-11-20 21:00:18
ip
深入解析 Python 中的 sys.argv

本文将详细探讨 Python 编程语言中 sys.argv 的使用方法及其重要性。通过实际案例，我们将了解如何在命令行环境中传递参数给 Python 脚本，并分析这些参数是如何被处理和使用的。 ... [详细]

蜡笔小新 2024-11-22 10:06:30
get
Zabbix自定义监控与邮件告警配置实践

本文详细介绍了如何在Zabbix中添加自定义监控项目，配置邮件告警功能，并解决测试告警时遇到的邮件不发送问题。 ... [详细]

蜡笔小新 2024-11-22 08:33:19
get
Delphi XE2 之 FireMonkey 入门(19) - TFmxObject 的子类们(表)

td{border:1pxsolid#808080;}参考:和FMX相关的类(表)TFmxObjectIFreeNotification ... [详细]

蜡笔小新 2024-11-21 22:35:24
java
Struts2 + json+ jquery 实现三级联动action和jsp代码竟然有小红叉，提示缺双引号，检查了转义符号也没缺啊，求解

publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]

蜡笔小新 2024-11-21 16:25:41
java
Java 实现生成指定数量的不重复随机数

本文将详细介绍如何使用Java编程语言生成指定数量的不重复随机数，包括具体的实现方法和代码示例。适合初学者和有一定基础的开发者参考。 ... [详细]

蜡笔小新 2024-11-21 12:08:06
search
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
get
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
ip
对象存储与块存储、文件存储等对比

看到一篇文档，讲对象存储，好奇，搜索文章，摘抄,学习记录！背景：传统存储在面对海量非结构化数据时，在存储、分享与容灾上面临很大的挑战，主要表现在以下几个方面：传统存储并非为非结 ... [详细]

蜡笔小新 2024-11-17 18:21:23
ip
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
object
变量间相关性分析

本文探讨了如何通过统计方法评估两个变量之间的关系强度，重点介绍了皮尔森相关系数的计算及其应用。除了数学公式外，文章还提供了Python编程实例，展示如何利用实际数据集（如泰坦尼克号乘客数据）进行相关性检验。 ... [详细]

蜡笔小新 2024-11-22 12:53:03
range
数据分析与数据挖掘：NumPy、Pandas和Matplotlib的使用指南

本文详细介绍了如何使用NumPy、Pandas和Matplotlib进行数据分析和数据可视化。通过具体的代码示例，帮助读者更好地理解和应用这些强大的Python库。 ... [详细]

蜡笔小新 2024-11-15 18:34:43

水果jia

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章