pandas数据分析（二）

作者：82年的老代码 | 来源：互联网 | 2024-10-18 22:45

文章目录

DataFrame数据处理与分析
- 读取Excel文件中的数据
- 筛选符合特定条件的数据
- 查看数据特征和统计信息
- 按不同标准对数据排序
- 使用分组与聚合对员工业绩进行汇总

DataFrame数据处理与分析

部分数据如下
在这里插入图片描述
这个数据百度可以搜到&＃xff0c;就是下面这个

读取Excel文件中的数据

import pandas as pd pd.set_option(&＃39;display.unicode.ambiguous_as_wide&＃39;,True) pd.set_option(&＃39;display.unicode.east_asian_width&＃39;,True) #usecols指定要读取的列的索引或名字 df&＃61;pd.read_excel(r&＃39;C:\Users\dell\Desktop\超市营业额2.xlsx&＃39;,usecols&＃61;[&＃39;工号&＃39;,&＃39;姓名&＃39;,&＃39;时段&＃39;,&＃39;交易额&＃39;]) print(df[:10],end&＃61;&＃39;\n\n&＃39;)#输出前10行数据

在这里插入图片描述

#读取第一个worksheet中所有列 #跳过第1、3、5行&＃xff0c;指定下标为1的列中数据为DataFrame的行索引标签 df&＃61;pd.read_excel(r&＃39;C:\Users\dell\Desktop\超市营业额2.xlsx&＃39;,skiprows&＃61;[1,3,5],index_col&＃61;1) print(df[:10])

在这里插入图片描述

筛选符合特定条件的数据

#读取全部数据&＃xff0c;使用默认索引 df&＃61;pd.read_excel(r&＃39;C:\Users\dell\Desktop\超市营业额2.xlsx&＃39;)

#下标在[5,10]区间的行&＃xff0c;切片限定的是左闭右开区间 df[5:11]

在这里插入图片描述

#iloc使用整数做索引 df.iloc[5]#索引为5的行

在这里插入图片描述

df.iloc[[3,5,10]]#下标为[3,5,10]的行

在这里插入图片描述

df.iloc[[3,5,10],[0,1,4]]#行下标[3,5,10],列下标[0,1,4]

在这里插入图片描述

df[[&＃39;姓名&＃39;,&＃39;时段&＃39;,&＃39;交易额&＃39;]][:5]#指定的列前5行的数据

在这里插入图片描述

df[:10][[&＃39;姓名&＃39;,&＃39;日期&＃39;,&＃39;柜台&＃39;]]#只查看前10行指定的列

在这里插入图片描述

df.loc[[3,5,10],[&＃39;姓名&＃39;,&＃39;交易额&＃39;]]#下标为[3,5,10]行的指定列

在这里插入图片描述

df.at[3,&＃39;姓名&＃39;]#行下标为3&＃xff0c;姓名列的值&＃39;赵六&＃39;

#如果有报错&＃xff0c;看看柜台列的字符是不是跑到交易额列去了 #因为交易额有几个是空值&＃xff0c;直接复制来的数据可能位置不对 print(df[df[&＃39;交易额&＃39;]>1700])#交易额高于1700元的数据

在这里插入图片描述

df[&＃39;交易额&＃39;].sum()#交易总额327257.0

#注意这个数据里是中文冒号 df[df[&＃39;时段&＃39;]&＃61;&＃61;&＃39;14&＃xff1a;00-21&＃xff1a;00&＃39;][&＃39;交易额&＃39;].sum()#下午班的交易总额151228.0

#张三下午班的交易情况 df[(df.姓名&＃61;&＃61;&＃39;张三&＃39;)&(df.时段&＃61;&＃61;&＃39;14&＃xff1a;00-21&＃xff1a;00&＃39;)]

在这里插入图片描述

#日用品柜台销售总额 df[df[&＃39;柜台&＃39;]&＃61;&＃61;&＃39;日用品&＃39;][&＃39;交易额&＃39;].sum()88162.0

#张三和李四2人销售总额 df[df[&＃39;姓名&＃39;].isin([&＃39;张三&＃39;,&＃39;李四&＃39;])][&＃39;交易额&＃39;].sum()116860.0

#交易额在指定范围内的记录 df[df[&＃39;交易额&＃39;].between(800,850)]

在这里插入图片描述

查看数据特征和统计信息

#查看交易额统计信息 df[&＃39;交易额&＃39;].describe()

在这里插入图片描述

#交易额四分位数 df[&＃39;交易额&＃39;].quantile([0,0.25,0.5,0.75,1.0])

在这里插入图片描述

#交易额中值 df[&＃39;交易额&＃39;].median()1259.0

#交易额最小的3条记录 df.nsmallest(3,&＃39;交易额&＃39;)

在这里插入图片描述

#交易额最大的3条记录 df.nlargest(3,&＃39;交易额&＃39;)

在这里插入图片描述

#最后一个日期 df[&＃39;日期&＃39;].max()Timestamp(&＃39;2019-03-31 00:00:00&＃39;)

#最小的工号 df[&＃39;工号&＃39;].min()1001

#第一个最小交易额的行下标 index&＃61;df[&＃39;交易额&＃39;].idxmin() print(index) #第一个最小交易额 print(df.loc[index,&＃39;交易额&＃39;])76 53.0

#第一个最大交易额的行下标 index&＃61;df[&＃39;交易额&＃39;].idxmax() print(index) #第一个最大交易额 print(df.loc[index,&＃39;交易额&＃39;])105 12100.0

按不同标准对数据排序

#按交易额和工号降序排序 df.sort_values(by&＃61;[&＃39;交易额&＃39;,&＃39;工号&＃39;],ascending&＃61;False)

在这里插入图片描述

#按交易额降序、工号升序排序 df.sort_values(by&＃61;[&＃39;交易额&＃39;,&＃39;工号&＃39;],ascending&＃61;[False,True])

在这里插入图片描述

#按工号升序排序,na_position指定缺失值放在最前面/后面&＃xff0c;first/last df.sort_values(by&＃61;&＃39;工号&＃39;,na_position&＃61;&＃39;last&＃39;)

在这里插入图片描述

#按列名升序排序 #汉字的Unicode编码排序 df.sort_values(by&＃61;&＃39;姓名&＃39;,ascending&＃61;True)

在这里插入图片描述

使用分组与聚合对员工业绩进行汇总

#index对5求余&＃xff0c;然后求和 df.groupby(by&＃61;lambda num:num%5)[&＃39;交易额&＃39;].sum()

在这里插入图片描述

#根据指定字典的键对index进行分组&＃xff0c;值为index标签 df.groupby(by&＃61;{7:&＃39;下标为7的行&＃39;,35:&＃39;下标为35的行&＃39;})[&＃39;交易额&＃39;].sum()

在这里插入图片描述

#不同时段的销售总额 df.groupby(by&＃61;&＃39;时段&＃39;)[&＃39;交易额&＃39;].sum()

某行数据有问题&＃xff0c;但无伤大雅&＃xff0c;重要的是方法
在这里插入图片描述

#各柜台销售总额 df.groupby(by&＃61;&＃39;柜台&＃39;)[&＃39;交易额&＃39;].sum()

在这里插入图片描述

#查看每个员工上班总时长是否均匀 ddf&＃61;df.groupby(by&＃61;&＃39;姓名&＃39;)[&＃39;日期&＃39;].count() ddf.name&＃61;&＃39;上班次数&＃39; ddf

在这里插入图片描述

#每个员工交易额的平均值 df.groupby(by&＃61;&＃39;姓名&＃39;)[&＃39;交易额&＃39;].mean().round(2).sort_values()

在这里插入图片描述

#汇总交易额转换为整数 df.groupby(by&＃61;&＃39;姓名&＃39;).sum()[&＃39;交易额&＃39;].apply(int)

在这里插入图片描述

#每个员工交易额的中值 df.groupby(by&＃61;&＃39;姓名&＃39;)[&＃39;交易额&＃39;].median()

在这里插入图片描述

# 每个员工交易额中值的排名 dff&＃61;df.groupby(by&＃61;&＃39;姓名&＃39;).median() dff[&＃39;排名&＃39;]&＃61;dff[&＃39;交易额&＃39;].rank(ascending&＃61;False) dff[[&＃39;交易额&＃39;,&＃39;排名&＃39;]]

在这里插入图片描述

# 每个员工不同时段的交易额 df.groupby(by&＃61;[&＃39;姓名&＃39;,&＃39;时段&＃39;])[&＃39;交易额&＃39;].sum()

在这里插入图片描述

# 时段和交易额采用不同的聚合方式 df.groupby(by&＃61;[&＃39;姓名&＃39;])[&＃39;时段&＃39;,&＃39;交易额&＃39;].aggregate({&＃39;交易额&＃39;:[&＃39;sum&＃39;],&＃39;时段&＃39;:lambda x:&＃39;各时段累计&＃39;})

在这里插入图片描述

# 使用DataFrame结构的agg()方法对指定列进行聚合 df.agg({&＃39;交易额&＃39;:[&＃39;sum&＃39;,&＃39;mean&＃39;,&＃39;min&＃39;,&＃39;max&＃39;,&＃39;median&＃39;],&＃39;日期&＃39;:[&＃39;min&＃39;,&＃39;max&＃39;]})

在这里插入图片描述

# 对分组结果进行聚合 df.groupby(by&＃61;&＃39;姓名&＃39;).agg([&＃39;max&＃39;,&＃39;min&＃39;,&＃39;mean&＃39;,&＃39;median&＃39;])[[&＃39;工号&＃39;,&＃39;交易额&＃39;]]

在这里插入图片描述

推荐阅读

io
Unity 客户端框架设计：UI管理系统的构建

本文详细介绍了如何构建一个高效的UI管理系统，集中处理UI页面的打开、关闭、层级管理和页面跳转等问题。通过UIManager统一管理外部切换逻辑，实现功能逻辑分散化和代码复用，支持多人协作开发。 ... [详细]

蜡笔小新 2024-12-27 10:28:40
scala
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
perl
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
perl
路由器配置与网络地址转换

本文介绍了如何在具备多个IP地址的FTP服务器环境中，通过动态地址端口复用和地址转换技术优化网络配置。重点讨论了2Mb/s DDN专线连接、Cisco 2611路由器及内部网络地址规划。 ... [详细]

蜡笔小新 2024-12-27 18:25:35
io
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
io
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
io
如何在窗口右下角添加调整大小的手柄

本文探讨了如何在传统MFC/Win32 API编程中实现类似C# WinForms中的SizeGrip功能，即在窗口的右下角显示一个用于调整窗口大小的手柄。我们将介绍具体的实现方法和相关API。 ... [详细]

蜡笔小新 2024-12-27 11:17:27
process
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
format
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
io
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
io
技术变现之道：从日常工作中挖掘潜力

本文探讨了如何在日常工作中通过优化效率和深入研究核心技术，将技术和知识转化为实际收益。文章结合个人经验，分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法，帮助读者更好地实现技术变现。 ... [详细]

蜡笔小新 2024-12-24 15:21:23
io
深入解析TCP/IP五层协议

本文详细介绍了TCP/IP五层协议模型，包括物理层、数据链路层、网络层、传输层和应用层。每层的功能及其相互关系将被逐一解释，帮助读者理解互联网通信的原理。此外，还特别讨论了UDP和TCP协议的特点以及三次握手、四次挥手的过程。 ... [详细]

蜡笔小新 2024-12-24 14:02:48
io
Python Pandas 库中的 Series.round() 方法详解

本文介绍如何使用 Python 的 Pandas 库中 Series 对象的 round() 方法，对数值进行四舍五入处理。该方法在数据预处理和分析中非常有用。 ... [详细]

蜡笔小新 2024-12-23 12:13:19
io
ABBYY FineReader：高效PDF转换、精准OCR识别与文档对比工具

在处理PDF转换和OCR识别时，您是否遇到过格式混乱、识别率低或图表无法正常识别的问题？ABBYY FineReader以其强大的功能和高精度的识别技术，完美解决这些问题，帮助您轻松找到最终版文档。 ... [详细]

蜡笔小新 2024-12-21 23:24:02
format
python时间序列之ADF检验(1)

读取数据，pd.read_csv默认生成DataFrame对象，需将其转换成Series对象DataFrame和Series是pandas中最常见的2 ... [详细]

蜡笔小新 2024-12-19 18:56:32

82年的老代码

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章