当前位置: 开发笔记 > 编程语言 > 正文

java类似dataframe_PandasDataFrame使用总结

作者：风尚宣城_588 | 来源：互联网 | 2023-07-24 09:31

Pandas是一个非常好用的库，总结一下PandasDataFrame常见用法，在使用的时候可以快速找到。PandasDataFrames是具有带标签的

Pandas 是一个非常好用的库，总结一下 Pandas DataFrame 常见用法，在使用的时候可以快速找到。

Pandas DataFrames 是具有带标签的行和列的二维数据结构，可以存储很多类型的数据。如果你熟悉 Excel 的话，可以将 Pandas DataFrames 看做类似于电子表格。

一、引入

import numpy as np

import pandas as pd

二、创建

data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

c = [&＃39;a&＃39;, &＃39;b&＃39;, &＃39;c&＃39;]

r = [&＃39;A&＃39;, &＃39;B&＃39;, &＃39;C&＃39;]

df = pd.DataFrame(data=data, columns=c, index=r)

三、排序

按列、行名排序

# 行名排序降序

df.sort_index(axis=0, ascending=False)

# 列名排序降序

df.sort_index(axis=0, ascending=False)

按值排序

拿出来排序

df["a"].sort_values(ascending = False)

df 内排序

df.sort_values( [&＃39;a&＃39;, &＃39;b&＃39;, &＃39;c&＃39;])

四、索引

位置索引

df.iloc[2] # 选择第二行所有数据, 是Series类型

df.iloc[[2]] # 选择第二行所有数据, 是DataFrame类型

df.iloc[:, 2] # 选择第二列所有数据, 是Series类型

df.iloc[:, [2]] # 选择第二列所有数据, 是DataFrame类型

df.iloc[:, 0:2] # 选择0到2列所有数据

df.iloc[[2,3], 0:2] # 选择2和3行, 0到2列所有数据

df.iat[1, 1] # 根据位置快速取出数据, 获取单个数据推荐这种方法

自定义索引

df.loc[&＃39;top&＃39;] # 选择指定行数据, 是Series类型

df.loc[[&＃39;top&＃39;]] # 选择指定行数据, 是DataFrame类型

df.loc[:, &＃39;xm&＃39;] # 选择指定列数据, 是Series类型(不推荐)

df.loc[:, [&＃39;xm&＃39;]] # 选择指定列数据, 是DataFrame类型(不推荐)

df.loc[:, [&＃39;bj&＃39;,&＃39;xm&＃39;]] # 选择多列数据(不推荐)

df.loc[:, &＃39;bj&＃39;:&＃39;xb&＃39;] # 选择多列之间所有数据, 列切片只能用这种方法

df.loc[[&＃39;top&＃39;,&＃39;count&＃39;], &＃39;bj&＃39;:&＃39;xb&＃39;] # 选择指定行, 指定列数据

df.at[&＃39;top&＃39;, &＃39;xm&＃39;] # 根据自定义索引快速取出数据, 获取单个数据推荐这种方法

布尔索引

# 选取所有出生日期大于等于1998年的数据, 这里是字符串比较

df[df[&＃39;csrq&＃39;]>=&＃39;1998&＃39;]

# 选取所有出生日期大于等于1997年小于1999年的数据

df[(df[&＃39;csrq&＃39;]>=&＃39;1997&＃39;)&(data[&＃39;csrq&＃39;]

# 选取所有出生日期大于等于1997年小于1999年的数据

df[df[&＃39;csrq&＃39;].between(&＃39;1997&＃39;, &＃39;1999&＃39;)]

# 选取所有出生日期大于等于1997年或者姓名为张三的数据

df[(df[&＃39;csrq&＃39;]>=&＃39;1997&＃39;)|(data[&＃39;xm&＃39;]==&＃39;张三&＃39;)]

# 另一种选取方式(不推荐, 实测效率比上面低)

df[df.csrq>=&＃39;1998&＃39;]

# 选择字段值为指定内容的数据

df[df[&＃39;xm&＃39;].isin([&＃39;张三&＃39;,&＃39;李四&＃39;])]

五、插入与删除

# 假设cj列本来不存在, 这样会在列尾添加新的一列cj, 值为s(Series对象), 原地

df[&＃39;cj&＃39;] = s

# 在第1列位置插入一列dz(地址), 值为s, 原地

df.insert(0, &＃39;dz&＃39;, s)

# 在df中添加内容为df2(必须是DataFrame对象)的新列(添加列), 非原地

df.join(df2)

# 将df2中的行添加到df的尾部(添加行), 非原地

df.append(df2)

# 删除单列, 并返回删除的列, 原地

df.pop(&＃39;xm&＃39;)

# 删除指定行, 非原地

df.drop(1)

# 删除指定列, axis=1指第2维, axis默认0, 非原地

df.drop([&＃39;xm&＃39;, &＃39;xh&＃39;], axis=1)

六、DataFrame 重要方法与属性

&＃39;&＃39;&＃39;重要属性&＃39;&＃39;&＃39;

df.values # 查看所有元素的value

df.dtypes # 查看所有元素的类型

df.index # 查看所有行名

df.index = [&＃39;总数&＃39;, &＃39;不同&＃39;, &＃39;最多&＃39;, &＃39;频率&＃39;] # 重命名行名

df.columns # 查看所有列名

df.columns = [&＃39;班级&＃39;, &＃39;姓名&＃39;, &＃39;性别&＃39;, &＃39;出生日期&＃39;] # 重命名列名

df.T # 转置后的df, 非原地

&＃39;&＃39;&＃39;查看数据&＃39;&＃39;&＃39;

df.head(n) # 查看df前n条数据, 默认5条

df.tail(n) # 查看df后n条数据, 默认5条

df.shape() # 查看行数和列数

df.info() # 查看索引, 数据类型和内存信息

&＃39;&＃39;&＃39;数据统计&＃39;&＃39;&＃39;

df.describe() # 查看数据值列的汇总统计, 是DataFrame类型

df.count() # 返回每一列中的非空值的个数

df.sum() # 返回每一列的和, 无法计算返回空, 下同

df.sum(numeric_Only=True) # numeric_Only=True代表只计算数字型元素, 下同

df.max() # 返回每一列的最大值

df.min() # 返回每一列的最小值

df.argmax() # 返回最大值所在的自动索引位置

df.argmin() # 返回最小值所在的自动索引位置

df.idxmax() # 返回最大值所在的自定义索引位置

df.idxmin() # 返回最小值所在的自定义索引位置

df.mean() # 返回每一列的均值

df.median() # 返回每一列的中位数

df.var() # 返回每一列的方差

df.std() # 返回每一列的标准差

df.isnull() # 检查df中空值, NaN为True, 否则False, 返回一个布尔数组

df.notnull() # 检查df中空值, 非NaN为True, 否则False, 返回一个布尔数组

七、转换成 Numpy

df.values

np.array(df)

八、实战应用

获取交易对BTC/USDT最近10日的收盘标准差。

# 计算标准差

since_days = 10

test_symbol = &＃39;BTC/USDT&＃39;

# 计算时间点

threeDayAgo = (datetime.datetime.now() - datetime.timedelta(days=since_days))

SinceTimeStamp = int(time.mktime(threeDayAgo.timetuple())) * 1000 # 转换为时间戳，*1000，转为毫秒时间戳13位

tickers_list = binance_exchange.fetch_ohlcv(test_symbol, timeframe=&＃39;1d&＃39;, since=SinceTimeStamp)

# print(len(tickers_list))

# print(tickers_list)

kline_data = pd.DataFrame(tickers_list)

kline_data.columns = [&＃39;Datetime&＃39;, &＃39;Open&＃39;, &＃39;High&＃39;, &＃39;Low&＃39;, &＃39;Close&＃39;, &＃39;Vol&＃39;]

print(kline_data)

print("describe:\n", kline_data.describe())

std = kline_data[&＃39;Close&＃39;].std()

print("标准差：", std)

打印：

Datetime Open High Low Close Vol

0 1590192000000 9170.00 9307.85 9070.00 9179.15 43526.296966

1 1590278400000 9179.01 9298.00 8700.00 8720.34 70379.866450

2 1590364800000 8718.14 8979.66 8642.72 8900.35 62833.910949

3 1590451200000 8900.35 9017.67 8700.00 8841.18 58299.770138

4 1590537600000 8841.00 9225.00 8811.73 9204.07 68910.355514

5 1590624000000 9204.07 9625.47 9110.00 9575.89 74110.787662

6 1590710400000 9575.87 9605.26 9330.00 9427.07 57374.362961

7 1590796800000 9426.60 9740.00 9331.23 9697.72 55665.272540

8 1590883200000 9697.72 9700.00 9381.41 9448.27 48333.786403

9 1590969600000 9448.27 9619.00 9421.67 9542.47 15797.593487

describe:

Datetime Open High Low Close \

count 1.000000e+01 10.000000 10.000000 10.000000 10.000000

mean 1.590581e+12 9216.103000 9411.791000 9049.876000 9253.651000

std 2.615890e+08 325.168891 282.355505 312.180668 339.899591

min 1.590192e+12 8718.140000 8979.660000 8642.720000 8720.340000

25% 1.590386e+12 8967.762500 9243.250000 8727.932500 8970.050000

50% 1.590581e+12 9191.540000 9456.555000 9090.000000 9315.570000

75% 1.590775e+12 9442.852500 9623.852500 9330.922500 9518.920000

max 1.590970e+12 9697.720000 9740.000000 9421.670000 9697.720000

Vol

count 10.000000

mean 55523.200307

std 16943.615232

min 15797.593487

25% 50166.657937

50% 57837.066549

75% 67391.244373

max 74110.787662

标准差： 339.8995912341039

Pandas DataFrame 总结

Python Pandas DataFrame 创建 (二十)

Python Pandas DataFrame 元素访问 (二十一)

关于找一找教程网

本站文章仅代表作者观点，不代表本站立场，所有文章非营利性免费分享。

本站提供了软件编程、网站开发技术、服务器运维、人工智能等等IT技术文章，希望广大程序员努力学习，让我们用科技改变世界。

[Pandas DataFrame 使用总结]http://www.zyiz.net/tech/detail-138134.html

推荐阅读

shell
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
int
python时间序列之ADF检验(1)

读取数据，pd.read_csv默认生成DataFrame对象，需将其转换成Series对象DataFrame和Series是pandas中最常见的2 ... [详细]

蜡笔小新 2024-12-19 18:56:32
go
Go+ 中的上下文处理指南

本文详细介绍 Go+ 编程语言中的上下文处理机制，涵盖其基本概念、关键方法及应用场景。Go+ 是一门结合了 Go 的高效工程开发特性和 Python 数据科学功能的编程语言。 ... [详细]

蜡笔小新 2024-12-28 11:05:31
数组
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
go
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
go
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
int
探索Python在STM32平台上的高效编程与应用

本文详细解析了如何使用Python语言在STM32硬件平台上实现高效的编程和快速的应用开发。通过具体的代码示例，展示了Python简洁而强大的特性。 ... [详细]

蜡笔小新 2024-12-27 12:54:18
version
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
shell
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
数组
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
数组
POJ 3259 Bellman-Ford算法实现

本文提供了使用Java实现Bellman-Ford算法解决POJ 3259问题的代码示例，详细解释了如何通过该算法检测负权环来判断时间旅行的可能性。 ... [详细]

蜡笔小新 2024-12-25 20:03:22
数组
VSCode 自定义代码片段配置：实现类似IDEA的快捷代码段（如sout或psvm）

本文详细介绍如何在VSCode中配置自定义代码片段，使其具备与IDEA相似的代码生成快捷键功能。通过具体的Java和HTML代码片段示例，展示配置步骤及效果。 ... [详细]

蜡笔小新 2024-12-25 17:10:13
int
主板市盈率、市净率及股息率的自动化抓取

本文介绍了如何通过Python脚本自动从中国指数有限公司网站抓取主板的市盈率、市净率和股息率等关键财务指标，并将这些数据存储到CSV文件中。涉及的技术包括网页解析、正则表达式以及异常处理。 ... [详细]

蜡笔小新 2024-12-15 14:26:17
数组
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
int
SaltStack部署实践（4）JOB管理与Returns模块

目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]

蜡笔小新 2024-12-22 18:53:43

风尚宣城_588

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章