pandas如何进行优雅的列转行、行转列？

作者： | 来源：互联网 | 2023-10-12 07:24

一、列转行1、背景描述在日常处理数据过程中，你们可能会经常遇到这种类型的数据：而我们用pandas进行统计分析时，往往需要将结果转换成以下类型的数据：2.方法描述准备数据dfpd.

一、列转行

1、背景描述

在日常处理数据过程中&＃xff0c;你们可能会经常遇到这种类型的数据&＃xff1a;

而我们用pandas进行统计分析时&＃xff0c;往往需要将结果转换成以下类型的数据&＃xff1a;

2.方法描述

准备数据

df &＃061; pd.DataFrame({&＃039;姓名&＃039;: [&＃039;A&＃039;,&＃039;B&＃039;,&＃039;C&＃039;], &＃039;英语&＃039;:[90,60,70], &＃039;数学&＃039;:[80,98,80], &＃039;语文&＃039;:[85,90,75]})

这个实现的方法有多种形式&＃xff0c;这里集中进行展示

2.1 方法1

tmp&＃061;df.set_index([&＃039;姓名&＃039;]).stack() tmp2&＃061;tmp.rename_axis(index&＃061;[&＃039;姓名&＃039;,&＃039;科目&＃039;]) tmp2.name&＃061;&＃039;分数&＃039; tmp2.reset_index()

2.2 方法2

tmp&＃061;df.set_index([&＃039;姓名&＃039;]).stack() tmp.index.names&＃061;[&＃039;姓名&＃039;,&＃039;科目&＃039;] tmp.reset_index(name&＃061;&＃039;分数&＃039;)

2.3 方法3

tmp&＃061;df.set_index([&＃039;姓名&＃039;]).stack().reset_index() tmp.columns&＃061;[&＃039;姓名&＃039;,&＃039;科目&＃039;,&＃039;分数&＃039;]

2.4 方法4

tmp&＃061;pd.melt(df,id_vars&＃061;&＃039;姓名&＃039;,var_name&＃061;&＃039;科目&＃039;,value_name&＃061;&＃039;分数&＃039;)

3 思考与总结

通过上述的对比&＃xff0c;相信各位已经明白其中的厉害之处了&＃xff0c;下面就来重点讲解一下melt这个函数。melt函数共有以下几个&＃xff1a;

frame: 需要处理的数据帧

id_vars: 不需要做列转行处理的字段&＃xff0c;如果不设置该字段则默认会对所有列进行处理

value_vars: 需要做列转行的字段&＃xff0c;不指定则不处理

var_name: 列转行处理后&＃xff0c;生成字段列&＃xff0c;对列转行之前的字段名称进行重命名

value_name: 列转行处理后&＃xff0c;生成数值列&＃xff0c;对列转行之前的数值进行命名

col_level: 指定具体的列名等级&＃xff0c;通常在有多级列名时使用。

4 思维延伸

4.1 例子1

转换前&＃xff1a;

转换后&＃xff1a;

实现的1种方法&＃xff1a;

#准备数据 df2 &＃061; pd.DataFrame({&＃039;姓名&＃039;: [&＃039;A&＃039;, &＃039;B&＃039;, &＃039;C&＃039;], &＃039;班级&＃039;:[1,2,1], &＃039;期中考试-英语&＃039;: [90, 60, 70], &＃039;期中考试-数学&＃039;: [80, 98, 80], &＃039;期中考试-语文&＃039;: [85, 90, 75], &＃039;期末考试-英语&＃039;: [92, 63, 76], &＃039;期末考试-数学&＃039;: [85,100, 89], &＃039;期末考试-语文&＃039;: [87, 91, 80]}) #实现部分 t1&＃061;pd.melt(df2, id_vars&＃061;[&＃039;姓名&＃039;,&＃039;班级&＃039;], var_name&＃061;&＃039;科目&＃039;, value_name&＃061;&＃039;分数&＃039;) t2&＃061;t1.set_index([&＃039;姓名&＃039;,&＃039;班级&＃039;,&＃039;分数&＃039;])[&＃039;科目&＃039;].str.split(&＃039;-&＃039;,expand&＃061;True).reset_index() t2.set_index([&＃039;姓名&＃039;,&＃039;班级&＃039;,0,1]).unstack().reset_index().rename_axis() t3&＃061;t2.set_index([&＃039;姓名&＃039;,&＃039;班级&＃039;,0,1]).unstack() t3.columns&＃061;t3.columns.droplevel(0) result&＃061;t3.rename_axis(columns&＃061;None).reset_index().rename(columns&＃061;{0:&＃039;考试类型&＃039;}) result

4.2 例子2

转换前&＃xff1a;

转换后&＃xff1a;

实现方法举例&＃xff1a;

pd.lreshape(df2,{&＃039;英语&＃039;:[&＃039;期中考试-英语&＃039;,&＃039;期末考试-英语&＃039;], &＃039;数学&＃039;:[&＃039;期中考试-数学&＃039;,&＃039;期末考试-数学&＃039;], &＃039;语文&＃039;:[&＃039;期中考试-语文&＃039;,&＃039;期末考试-语文&＃039;]})

二、行转列

在一中&＃xff0c;我们已经完成了对于列转行的任务&＃xff0c;即将本文一中的多列df转为tmp&＃xff0c;那现在假如需要进行列转行又该如何操作呢&＃xff1f;

1.准备数据

tmp&＃061;pd.DataFrame({&＃039;姓名&＃039;:[&＃039;A&＃039;, &＃039;B&＃039;, &＃039;C&＃039;, &＃039;A&＃039;, &＃039;B&＃039;, &＃039;C&＃039;, &＃039;A&＃039;, &＃039;B&＃039;, &＃039;C&＃039;], &＃039;科目&＃039;:[&＃039;英语&＃039;, &＃039;英语&＃039;, &＃039;英语&＃039;, &＃039;数学&＃039;, &＃039;数学&＃039;, &＃039;数学&＃039;, &＃039;语文&＃039;, &＃039;语文&＃039;, &＃039;语文&＃039;], &＃039;分数&＃039;:[90, 60, 70, 80, 98, 80, 85, 90, 75]}) tmp

2.行转列实现

2.1 方法1

df&＃061;tmp.set_index([&＃039;姓名&＃039;,&＃039;科目&＃039;])[&＃039;分数&＃039;].unstack() df.columns.name&＃061;None df&＃061;df.reset_index()

2.2 方法2

tmp2&＃061;tmp.set_index([&＃039;姓名&＃039;,&＃039;科目&＃039;])[&＃039;分数&＃039;].unstack() df&＃061;tmp2.rename_axis(columns&＃061;None).reset_index()

2.3 方法3

df&＃061;tmp.pivot(index&＃061;&＃039;姓名&＃039;,columns&＃061;&＃039;科目&＃039;,values&＃061;&＃039;分数&＃039;).rename_axis(columns&＃061;None).reset_index()

3.思考与总结

从行转列的例子中&＃xff0c;我们可以发现核心的函数是unstack。unstack是将多重索引形式的数据&＃xff0c;转换为标准表格形式的数据&＃xff0c;unstack主要由两个参数组成&＃xff1a;

level &＃xff1a;要取消堆叠的索引级别&＃xff0c;可以传递级别名称。默认参数为-1&＃xff0c;例子中为科目&＃xff0c;即最后一个索引

fill_value &＃xff1a;如果取消堆叠后有缺失数据&＃xff0c;会以固定字符进行填充。

来源：theskylife

推荐阅读

loops
Python Numpy 数组创建技巧：从列表到高效Numpy数组转换

本文探讨了在已知最终数组尺寸不会超过5000x10的情况下，如何利用预分配和调整大小的方法来优化Numpy数组的创建过程，以提高性能并减少内存消耗。 ... [详细]

蜡笔小新 2024-11-23 16:46:44
java
41款高效LISP工具助力数据处理全流程

本文由公众号【数智物语】(ID: decision_engine)发布，关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程，介绍了41款实用工具，旨在帮助数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-11-24 00:11:50
python
将XML数据迁移至Oracle Autonomous Data Warehouse (ADW)

随着Oracle ADW的推出，数据迁移至ADW成为业界关注的焦点。特别是XML和JSON这类结构化数据的迁移需求日益增长。本文将通过一个实际案例，探讨如何高效地将XML数据迁移至ADW。 ... [详细]

蜡笔小新 2024-11-23 20:27:56
shell
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
list
基于OpenCV和Python的边缘检测与四点变换实现

本文介绍了如何利用OpenCV库进行图像的边缘检测，并通过Canny算法提取图像中的边缘。随后，文章详细说明了如何识别图像中的特定形状（如矩形），并应用四点变换技术对目标区域进行透视校正。 ... [详细]

蜡笔小新 2024-11-22 11:31:52
python
Python对象序列化至磁盘的封装与实现

本文探讨了如何将Python对象转换为字节流，以实现文件保存、数据库存储或网络传输的需求。主要介绍了利用pickle模块进行序列化的具体方法。 ... [详细]

蜡笔小新 2024-11-22 10:51:09
java
JavaScript Split 方法详解及应用技巧

本文详细介绍了 JavaScript 中 Split 方法的使用方式和一些实用技巧。通过示例，我们将探讨如何利用 Split 方法有效地分割字符串，并获取所需的数据。 ... [详细]

蜡笔小新 2024-11-22 10:30:21
list
深入探讨前端代码优化策略

本文深入讨论了前端开发中代码优化的关键技术，包括JavaScript、HTML和CSS的优化方法，旨在提升网页加载速度和用户体验。 ... [详细]

蜡笔小新 2024-11-21 10:57:01
java
Python 领跑！2019年2月编程语言排名更新

根据最新的编程语言流行指数（PYPL）排行榜，Python 在2019年2月的份额达到了26.42%，稳坐榜首位置。 ... [详细]

蜡笔小新 2024-11-21 09:18:39
utf-8
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
list
使用Python绘制点云及其最大边界框

本文介绍了如何利用Python中的Matplotlib库来绘制三维点云数据，并展示其外接的最大边界框。通过具体代码示例，帮助读者理解点云数据的可视化方法。 ... [详细]

蜡笔小新 2024-11-20 09:13:02
split
Python正则表达式(Python RegEx)

Python正则表达式快速参考常用函数：re.match():从字符串的起始位置匹配一个正则表达式。re.search():扫描整个字符串并返回第一个成功的匹配。re.s ... [详细]

蜡笔小新 2024-11-19 18:22:57
list
开发技巧: Effective Java第三版——优先选用Collection而非Stream作为方法返回类型

在Effective Java第三版中，建议在方法返回类型中优先考虑使用Collection而非Stream，以提高代码的灵活性和兼容性。 ... [详细]

蜡笔小新 2024-11-19 15:31:16
split
如何将字符串分割成特定格式的数组

探讨如何使用编程方法将字符串'11aa22bb33cc'分割成数组['11', 'aa', '22', 'bb', '33', 'cc']。 ... [详细]

蜡笔小新 2024-11-19 11:19:38
split
所在位置|室友_Python+OpenCv实现图像边缘检测（滑动调节阈值）

所在位置|室友_Python+OpenCv实现图像边缘检测（滑动调节阈值） ... [详细]

蜡笔小新 2024-11-18 15:40:40

Tags | 热门标签

RankList | 热门文章