当前位置: 开发笔记 > 编程语言 > 正文

python效率计算公式_Python:Pandas运算的效率探讨以及如何选择高效的运算方式

作者：dashan | 来源：互联网 | 2023-08-23 15:37

本文就Pandas的运行效率作一个对比的测试，来探讨用哪些方式，会使得运行效率较好。测试环境如下：windows7，64

本文就Pandas的运行效率作一个对比的测试&＃xff0c;来探讨用哪些方式&＃xff0c;会使得运行效率较好。

测试环境如下&＃xff1a;

windows 7&＃xff0c; 64位

python 3.5

pandas 0.19.2

numpy 1.11.3

jupyter notebook

需要说明的是&＃xff0c;不同的系统&＃xff0c;不同的电脑配置&＃xff0c;不同的软件环境&＃xff0c;运行结果可能有些差异。就算是同一台电脑&＃xff0c;每次运行时&＃xff0c;运行结果也不完全一样。

1 测试内容

测试的内容为&＃xff0c;分别用三种方法来计算一个简单的运算过程&＃xff0c;即 a*a&＃43;b*b 。

三种方法分别是&＃xff1a;

python的for循环

Pandas的Series

Numpy的ndarray

首先构造一个DataFrame&＃xff0c;数据量的大小&＃xff0c;即DataFrame的行数&＃xff0c;分别为10&＃xff0c; 100&＃xff0c; 1000&＃xff0c; … &＃xff0c;直到10,000,000&＃xff08;一千万&＃xff09;。

然后在jupyter notebook中&＃xff0c;用下面的代码分别去测试&＃xff0c;来查看不同方法下的运行时间&＃xff0c;做一个对比。

import pandas as pd

import numpy as np

# 100分别用 10&＃xff0c;100&＃xff0c;...&＃xff0c;10,000,000来替换运行

list_a &＃61; list(range(100))

# 200分别用 20&＃xff0c;200&＃xff0c;...&＃xff0c;20,000,000来替换运行

list_b &＃61; list(range(100,200))

print(len(list_a))

print(len(list_b))

df &＃61; pd.DataFrame({&＃39;a&＃39;:list_a, &＃39;b&＃39;:list_b})

print(&＃39;数据维度为&＃xff1a;{}&＃39;.format(df.shape))

print(len(df))

print(df.head())

100

数据维度为&＃xff1a;(100, 2)

100

a b

0 0 100

1 1 101

2 2 102

3 3 103

4 4 104

执行运算&＃xff0c; a*a &＃43; b*b

Method 1: for循环

%%timeit

# 当DataFrame的行数大于等于1000000时&＃xff0c;请用 %%time 命令

for i in range(len(df)):

df[&＃39;a&＃39;][i]*df[&＃39;a&＃39;][i]&＃43;df[&＃39;b&＃39;][i]*df[&＃39;b&＃39;][i]

100 loops, best of 3: 12.8 ms per loop

Method 2: Series

type(df[&＃39;a&＃39;])

pandas.core.series.Series

%%timeit

df[&＃39;a&＃39;]*df[&＃39;a&＃39;]&＃43;df[&＃39;b&＃39;]*df[&＃39;b&＃39;]

The slowest run took 5.41 times longer than the fastest. This could mean that an intermediate result is being cached.

1000 loops, best of 3: 669 µs per loop

Method 3: ndarray

type(df[&＃39;a&＃39;].values)

numpy.ndarray

%%timeit

df[&＃39;a&＃39;].values*df[&＃39;a&＃39;].values&＃43;df[&＃39;b&＃39;].values*df[&＃39;b&＃39;].values

10000 loops, best of 3: 34.2 µs per loop

2 测试结果

运行结果如下&＃xff1a;

从运行结果可以看出&＃xff0c;for循环明显比Series和ndarray要慢很多&＃xff0c;并且数据量越大&＃xff0c;差异越明显。当数据量达到一千万行时&＃xff0c;for循环的表现也差一万倍以上。而Series和ndarray之间的差异则没有那么大。

PS&＃xff1a; 1000万行时&＃xff0c;for循环运行耗时特别长&＃xff0c;各位如果要测试&＃xff0c;需要注意下&＃xff0c;请用 %%time 命令&＃xff08;只测试一次&＃xff09;。

下面通过图表来对比下Series和ndarray之间的表现。

从上图可以看出&＃xff0c;当数据小于10万行时&＃xff0c;ndarray的表现要比Series好些。而当数据行数大于100万行时&＃xff0c;Series的表现要稍微好于ndarray。当然&＃xff0c;两者的差异不是特别明显。

所以一般情况下&＃xff0c;个人建议&＃xff0c;for循环&＃xff0c;能不用则不用&＃xff0c;而当数量不是特别大时&＃xff0c;建议使用ndarray&＃xff08;即df[‘col’].values&＃xff09;来进行计算&＃xff0c;运行效率相对来说要好些。

推荐阅读

text
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
filter
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
version
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
main
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
main
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
text
使用 NSTimer 实现倒计时功能

本文介绍如何使用 NSTimer 实现倒计时功能，详细讲解了初始化方法、参数配置以及具体实现步骤。通过示例代码展示如何创建和管理定时器，确保在指定时间间隔内执行特定任务。 ... [详细]

蜡笔小新 2024-12-26 19:08:19
filter
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
python
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
text
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
ip
基因组浏览器中的Wig格式解析

本文详细介绍了Wiggle（Wig）格式及其在基因组浏览器中的应用，涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时，还提供了关于数据值和自定义参数的补充信息。 ... [详细]

蜡笔小新 2024-12-26 11:21:09
python
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
text
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
version
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
main
android知识杂记（三）

andr ... [详细]

蜡笔小新 2024-12-26 13:29:32
string
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15

dashan

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章