当前位置: 开发笔记 > 编程语言 > 正文

Python中的pandas库简介及其使用教程_python

作者：手机用户2502934787 | 来源：互联网 | 2023-10-13 10:10

pandas是用于数据挖掘的Python库，Pandas中常见的数据结构有Series和DateFrame两种方式，今天通过本文给大家讲解Python中的pandas库简介及其使用

pandas模块

pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能。

便捷的数据处理能力

独特的数据结构

读取文件方便

封装了matplotlib的画图和numpy的计算

Pandas中常见的数据结构有两种：

Series	DateFrame
类似一维数组的对象，	类似多维数组/表格数组；每列数据可以是不同的类型；索引包括列索引和行索引。

Series

构建Series：ser_obj = pd.Series(range(10))

由索引和数据组成（索引在左<自动创建的>，数据在右）。

获取数据和索引：ser_obj.index; ser_obj.values

预览数据： ser_obj.head(n);ser_obj.tail(n)

DateFrame

获取列数据：df_obj[col_idx]或df_obj.col_idx

增加列数据：df_obj[new_col_idx] = data

删除列：del df_obj[col_idx]

按值排序：sort_values(by = “label_name”)

常用方法

Count	非NA值得数量
describe	针对Series或各DataFrame列计算汇总统计
min\max	计算最小值和最大值
argmin\argmax	计算能够获取到最大值或最小值的索引位置
idxmin\idxmax	计算能够获取到最小值和最大值的索引值
quantile	计算样本的分位数（0-1）
sum	值得总和
mean	值得平均值
median	值的算术中位数（50%分位数）
mad	根据平均值计算平均绝对离差
var	样本值得方差
std	样本值得标准差
skew	样本值的偏度（三阶距）
kurt	样本值的峰度（四阶距）
cumsum	样本值的累计和
cummin\cummax	样本值的累计最大值和累计最小值
cumprod	样本值的累计积
diff	计算一阶差分（对时间序列很有用）
pct_change	计算百分数变化

处理缺失数据

Dropna()丢弃缺失数据

Fillna()填充缺失数据

数据过滤

Df[filter_condition]依据filter_condition(条件)对Df(数据)进行过滤。

绘图功能

Plot(kind,x,y,title,figsize)
Kind(绘制什么形式的图),x（x轴内容）,y（y轴内容）,title（图标题）,figsize（图大小）

保存图片：plt.savefig()

（"The fool doth think he is wise, but the wise man knows himself to be a fool." --威廉·莎士比亚）

推荐阅读

ip
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
ip
解决Element UI中Select组件创建条目为空时报错的问题

本文介绍如何在Element UI的Select组件中使用allow-create属性创建新条目，并处理创建条目为空时出现的错误。我们将详细说明filterable属性的必要性，以及default-first-option属性的作用。 ... [详细]

蜡笔小新 2024-12-26 12:39:46
callback
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
plugins
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
int
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
ip
解读MySQL查询执行计划的详细指南

本文旨在帮助开发者和数据库管理员深入了解如何解读MySQL查询执行计划。通过详细的解析，您将掌握优化查询性能的关键技巧，了解各种访问类型和额外信息的含义。 ... [详细]

蜡笔小新 2024-12-26 20:10:30
ip
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
tree
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
buffer
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
sum
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
ip
基因组浏览器中的Wig格式解析

本文详细介绍了Wiggle（Wig）格式及其在基因组浏览器中的应用，涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时，还提供了关于数据值和自定义参数的补充信息。 ... [详细]

蜡笔小新 2024-12-26 11:21:09
ip
汇编语言等号伪指令解析：探究其陡峭的学习曲线

汇编语言以其独特的特性和复杂的语法结构，一直被认为是编程领域中学习难度较高的语言之一。本文将探讨汇编语言中的等号伪指令及其对初学者带来的挑战，并结合社区反馈分析其学习曲线。 ... [详细]

蜡笔小新 2024-12-26 10:34:21
tree
Weight the Tree（树形dp）

题目Link题目学习link1题目学习link2题目学习link3%%%受益匪浅！－－－－－&# ... [详细]

蜡笔小新 2024-12-26 15:55:56
tree
UnityGUI 扩展与自定义控件

本文介绍了如何通过扩展 UnityGUI 创建自定义和复合控件，以满足特定的用户界面需求。内容涵盖简单和静态复合控件的实现，并展示了如何创建复杂的 RGB 滑块。 ... [详细]

蜡笔小新 2024-12-26 08:36:29
ip
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14