这是我看过的最好的Python零基础Pandas教程

作者：娜丷衣阵风丶 | 来源：互联网 | 2023-10-14 14:12

作者：腾讯数据分析师cooper编辑：公众号高级农民工今天给各位分享一下鹅厂数据分析师cooper的Pandas学习经验，争取让你十分钟入

作者&＃xff1a;腾讯数据分析师 cooper

编辑&＃xff1a;公众号高级农民工

今天给各位分享一下鹅厂数据分析师 cooper 的 Pandas 学习经验&＃xff0c;争取让你十分钟入门 Pandas。

你可能零编程基础&＃xff0c;但你应该会 Excel。入门 Python 最简单的途径就是去学习它最基础也是最重要的库之一&＃xff1a;Pandas。

一方面这个库不难学&＃xff0c;可以结合着你会的 Excel 来练习&＃xff1b;另一方面&＃xff0c;一旦你学会 Pandas 它就会发现比 Excel 做数据分析效率高太多了&＃xff0c;能让你更加自信去地继续学习 Python。

Pandas 是一个高效而便捷的 Python 工具包&＃xff0c;广泛应用于数据处理与分析的各种场景&＃xff0c;在数据接入&＃xff0c;清洗&＃xff0c;聚合等功能上无往不利。原作者是来自于 AQR 资本公司的 McKinney&＃xff0c;所以 Pandas 在&＃xff08;金融&＃xff09;时间数据的处理上更是大放异彩。笔者基于 Pandas 文档中的《10 minutes to pandas》篇章&＃xff0c;也结合自己从业经历中的一些思考&＃xff0c;整理了这篇基础文档&＃xff0c;可供参考。

在使用 Pandas 几年的时间之后&＃xff0c;再谈论起这款工具时&＃xff0c;对其最深刻的感受是“全而简洁”。Pandas 提供的功能是相当全面的&＃xff0c;数据怎么接入&＃xff0c;缺失怎么处理&＃xff0c;数据如何观察&＃xff0c;变换&＃xff0c;采样&＃xff0c;汇总&＃xff0c;几乎都可以在里面找到对应的答案。而集成了这么多的功能之后&＃xff0c;Pandas 却几乎不会显得笨重&＃xff0c;不让人觉得繁冗&＃xff0c;其中一个原因是它提供的是重要却简洁的功能。

Pandas 就像是一个兴趣广泛却不轻易沉迷的孩子&＃xff0c;在许多的模块上都是点到即止。 比如数据的接入&＃xff0c;除了其 Pandas 本身的接口外&＃xff0c;往前一步&＃xff0c;可以用 Mysqldb 连接数据库&＃xff0c;Xlwings 处理 Excel&＃xff1b;比如数据的绘图&＃xff0c;除了用自身的 plot 之外&＃xff0c;往前一步可以用 Python 绘图全家桶 Matplotlib&＃xff0c;也可以用“美图相机”Seaborn&＃xff1b;统计往前一步用 Statsmodel&＃xff0c;建模往前一步用 Scikit&＃xff0c;Tensorflow。这些工具包的数据基础&＃xff0c;几乎都是来自于 Pandas。

在数据处理与分析工作中&＃xff0c;有三个基本问题是可以思考的&＃xff1a;1.数据从哪里来&＃xff1f;2.数据怎么处理&＃xff1f;3.数据要往哪里去&＃xff1f; 基于这三个问题&＃xff0c;Pandas 提供了非常丰富的功能&＃xff0c;用于各种场景下的操作和处理。以下将这些丰富的功能简化在十个应用场景里&＃xff0c;逐一展开介绍。

1.创建数据

Python 里面有三种很重要的数据结构&＃xff0c;其中一种是 Numpy 里的 Array&＃xff0c;应用在了很多的科学计算场景里。另外两种则是 Pandas 的 Series 和 DataFrame&＃xff0c;其中 Series 是一维的结构&＃xff0c;DataFrame 则是二维的结构。DataFrame 可以来自于列表、字典&＃xff0c;也可以来自于我们从各种接口里面读到的数据/文本。只要我们对其成功地 DataFrame 化&＃xff0c;便可进入下一步的处理。

图 1.1 Pandas 的两种结构

图 1.2 基础结构-Series

2.预览数据

就像是 SQL 里面常用 limit100 来观察数据样例&＃xff0c;也像是 Excel 常用 Ctrl&＃43;上下箭头来观察数据的头部和尾部一样&＃xff0c;不管在哪种工具里&＃xff0c;人们拿到一份数据时&＃xff0c;总是希望能对其有一个简单而直观的印象。在这个方面&＃xff0c;Pandas 也提供了一些基本的预览数据的功能。

其中比较常用的有&＃xff1a;1.通过 head 和 tail 观察头部和尾部的数据&＃xff1b;2.通过 index 和 columns 观察索引和列名&＃xff1b;3.通过 describe 进行简单的统计观察&＃xff1b;4.通过 sort 进行排序观察。

图 2.1 head 和 tail

图 2.2 index 和 columns

图 2.3 用 describe 进行简单的统计观察

图 2.4 用 sort_values 进行排序观察

3.数据筛选

数据筛选&＃xff0c;其实也是一种广义上的数据观察&＃xff0c;只是相对于上面所说的预览数据而言&＃xff0c;数据筛选不再局限于数据的外部轮廓&＃xff0c;而是深入到了其内部的肌理。

Pandas 的数据筛选&＃xff0c;其中有 4 个功能是可以注意的&＃xff1a;1.通过列名和行数直接筛选&＃xff1b;2.基于行与列标签的 loc 筛选&＃xff1b;3.基于行与列位置的 iloc 筛选&＃xff1b;4.基于布尔索引的筛选。

图 3.1 基于列名的直接筛选

图 3.2 基于行与列标签的 loc 筛选

图 3.3 基于行与列位置的 iloc 筛选

图 3.4 基于布尔索引的筛选

4.缺失值处理

缺失值的处理&＃xff0c;真的是一门手艺。在不同的场景下&＃xff0c;缺失值可以填 0&＃xff0c;填众数&＃xff0c;或者平均值。把缺失值填充掉很简单&＃xff0c;但往里面填什么数值&＃xff0c;则是一个需要考量的问题。 作为一个简洁的工具&＃xff0c;Pandas 提供了很便捷的缺失值处理功能&＃xff0c;至于如何使用则是读者需思考的问题。

图 4.1 缺失值清除

图 4.2 缺失值填充

5.函数操作

Pandas 的许多功能&＃xff0c;其实是层层递进的&＃xff0c;比如预览数据时观察了数据的整体轮廓&＃xff0c;数据筛选则深入了数据的内部肌理&＃xff0c;缺失值处理是针对全盘数据的统一更改&＃xff0c;那么到了函数操作这一部分时&＃xff0c;则是对于数据所做的更为精细&＃xff0c;灵活&＃xff0c;也更为个性化的操作。

函数操作部分&＃xff0c;Pandas 本身提供了一些简单的统计函数&＃xff0c;如 mean&＃xff0c;sum&＃xff0c;count 等&＃xff0c;可以直接应用&＃xff1b;对于字符串也有对应的处理函数&＃xff0c;如 lower&＃xff0c;upper&＃xff1b;而**pandas 在函数操作部分真正的大杀器&＃xff0c;无疑是 lambda 匿名函数了&＃xff0c;简洁&＃xff0c;优雅&＃xff0c;而无往不利。**通过 lambda 匿名函数&＃xff0c;人们基本上可以随心所欲地对关心的局部数据做处理&＃xff0c;成本则只需要写一句表达式即可。

图 5.1 简单的统计函数

图 5.2 lambda 匿名函数

图 5.3 字符串函数

6.数据拼接

数据的拼接&＃xff0c;可能是无数 SQLBoy/Girl 的心头痛了&＃xff0c;似乎人生就是无尽的 Join 和 Union&＃xff0c;还要应对层出不穷的数据问题&＃xff0c;一不小心就笛卡尔积了&＃xff0c;然后就是出库失败或者数据爆仓。在数据拼接的层面&＃xff0c;Pandas 提供的功能主要是 Merge 和 Concat。

其中 Merge 和 SQL 里的 Join 较为相似&＃xff0c;用于数据的两两拼接&＃xff0c;SQL 里的 Join 有六种情况&＃xff0c;Merge 里的 How 则有四种参数可以选择。Concat 可用于多表的拼接&＃xff0c;通过 axis 参数可以切换横向或者纵向的拼接方式&＃xff0c;其特色是在于支持多表一次性拼接完成。

图 6.1 Merge 里的 how 参数

图 6.2 两表拼接的 Merge

图 6.3 多表拼接的 Concat

7.数据聚合与重塑

数据的聚合与重塑&＃xff0c;在 Excel 和 SQL 的场景里是非常重要的&＃xff0c;尤其是数据透视表&＃xff0c;几乎应用到了 Excel 的方方面面。但在 Python 的场景下&＃xff0c;似乎在聚合和重塑方面的需求不是很大&＃xff0c;虽然 Pandas 提供了与数据透视表相似的 Pivot 功能&＃xff0c;但似乎好几年的时间里也没用过几次&＃xff0c;以及 SQL 里面无所不在的 groupby 聚合&＃xff0c;Pandas 虽然也支持&＃xff0c;但似乎我没怎么深入使用过。

图 7.1 groupby

图 7.2 stack

图 7.3 图解 groupby

图 7.4 图解 stack

8.时间序列

时间数据的处理&＃xff0c;是金融领域里一个古老而重要的问题&＃xff0c;对于其它众多行业来说&＃xff0c;其实也有其重要之处。在一些简单的场景里&＃xff0c;常用到时间的格式化&＃xff0c;日期和月份的加减&＃xff0c;以及特殊日期的判别等&＃xff1b;在一些深入的场景里&＃xff0c;则需要考虑时间的采样&＃xff0c;频率的转换&＃xff0c;以及与时间序列高度相关的移动平均等内容。所幸 Pandas 本就是为处理金融数据而生的&＃xff0c;所以在时间数据的处理上相对优异&＃xff0c;基本上涵盖了用户的在时间序列上的各种需求点。

图 8.1 Pandas 处理时间序列的几个模块

图 8.2 时间序列的生成和格式化

9.数据绘图

Python 里面有很丰富的绘图工具包&＃xff0c;人们常说数据绘图有三种境界&＃xff0c;基于 model&＃xff0c;基于 plot&＃xff0c;和基于 chart&＃xff0c;由此也生成了多种绘图包&＃xff0c;如 matplotlib&＃xff0c;seaborn&＃xff0c;bokeh 等&＃xff0c;都是优美而好用的工具。Pandas 的绘图功能&＃xff0c;延续了其整体的“全而简洁”的风格&＃xff0c;也是点到即止。 所以若你是想对数据做一些快速的绘图分析&＃xff0c;可以直接使用 pandas 的 plot&＃xff0c;若是要深入去绘制一些精美而繁密的图表&＃xff0c;则可以在 pandas 的基础上&＃xff0c;借用其它工具包来实现。

图 9.1 用 Pandas 绘制相关系数图

图 9.2 用 pandas 绘制柱形图

10.数据读取与写入

以上所述的内容&＃xff0c;更多是对于手头的数据的处理&＃xff0c;而数据的基本思考里还有很重要的两个问题&＃xff0c;即数据从哪里来和到哪里去。Pandas 在数据的输入输出里提供了全面而丰富的接口&＃xff0c;基本上覆盖了我们日常里的所有数据类型。 比如数据库的数据&＃xff0c;Excel 的数据&＃xff0c;Html 的数据&＃xff0c;Json 的数据&＃xff0c;甚至是传统软件 SAS 和 Spss 里的数据&＃xff0c;都可以轻松地在 Pandas 里进出。

图 10.1 Pandas 的部分 IO 接口

图 10.2 Pandas 读取 CSV 数据

图 10.3 Pandas 读取并处理 Excel 数据

综合上述内容&＃xff0c;基于 Pandas 的官方文档&＃xff0c;本文梳理和介绍了其十个重要和常用的功能&＃xff1a;

01.创建数据&＃xff1a; Series 和 DataFrame 是 Pandas 的基本结构&＃xff1b;

02.预览数据&＃xff1a; 用于观察数据的整体轮廓&＃xff1b;

03.数据筛选&＃xff1a; 用于观察数据的内部肌理&＃xff1b;

04.缺失值处理&＃xff1a; 缺失值处理是一个简单但需要深思的问题&＃xff1b;

05.函数操作&＃xff1a; 对局部数据展开的个性化处理&＃xff0c;lambda 函数是大杀器&＃xff1b;

06.数据拼接&＃xff1a; 对两表或多表的合并操作&＃xff0c;主要是 Merge 和 Concat&＃xff1b;

07.数据聚合与重塑&＃xff1a; 对原有表结构的调整和变换&＃xff1b;

08.时间序列&＃xff1a; 一个古老而永恒的数据领域&＃xff1b;

09.数据绘图&＃xff1a; Pandas 提供了简单化的绘图基础&＃xff1b;

10.数据读取与写入&＃xff1a; Pandas 提供了全面而丰富的接口。

十分钟的时间&＃xff0c;是时间长河里一片微小的浪花。十分钟可以让年华老去&＃xff0c;十分钟也可以用来入门 Pandas&＃xff0c;了解其中十个重要而常用的功能。如果你对 Pandas 感兴趣并想要学习的话&＃xff0c;这篇文档也许可以作为一个参考。

推荐阅读

const
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
const
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
js
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
js
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
config
解决macOS下Electron Builder签名验证失败问题

在macOS环境下使用Electron Builder进行应用打包时遇到签名验证失败的问题，具体表现为签名后spctl命令检测到应用程序未通过公证（Notarization）。本文将详细探讨该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-28 13:08:30
config
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
go
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07
js
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
random
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
js
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
js
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
config
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
js
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
js
Python 文件操作与数据转换

本文详细介绍了Python中文件的基本操作，包括打开、读取、写入和关闭文件的方法，并通过实例展示了如何将Excel文件转换为CSV文件以及进一步转换为HTML文件。此外，还涉及了成绩等级替换的具体实现。 ... [详细]

蜡笔小新 2024-12-25 21:45:13
js
制程能力分析：Cpk及其相关指数的深入探讨

本文详细介绍了制程能力指数（Cpk）的概念及其与Cp、Pp、Ppk之间的关系，通过具体案例和图表展示如何评估和改进生产过程的能力。文章还提供了使用Excel和Minitab进行批量计算的实际操作步骤。 ... [详细]

蜡笔小新 2024-12-24 12:47:27

娜丷衣阵风丶

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章