热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PythonNumpy数组创建技巧:从列表到高效Numpy数组转换

本文探讨了在已知最终数组尺寸不会超过5000x10的情况下,如何利用预分配和调整大小的方法来优化Numpy数组的创建过程,以提高性能并减少内存消耗。

当预计最终数组的大小不会超出5000x10时,采用预分配一个最大尺寸的数组,并通过循环逐步填充数据,之后使用arr.resize()方法根据实际需要调整数组大小,是一种有效的方法。

这种方法不仅能够避免因频繁扩展数组而导致的性能下降,还能在最终确定数组大小后释放未使用的内存,从而实现更优的内存管理。

与直接使用Python列表构建中间结果再转换为Numpy数组相比,这种预分配和调整大小的方法在处理大规模数据时表现出了显著的性能优势和更低的内存占用。

以下是具体的性能对比测试结果:

对于不同规模的数据集,使用两种不同的方法进行测试:

  • 使用numpy_all_the_way方法(预分配和调整大小)
  • 使用python_lists_to_array方法(先构建列表再转换)

测试代码如下:

import numpy as np
import os

def memory_usage():
pid = os.getpid()
with open(f'/proc/{pid}/status') as f:
for line in f:
if line.startswith('VmSize'):
return int(line.split()[1])

N, M = 5000, 10

def python_lists_to_array(k):
list_of_arrays = [x * np.ones(M) for x in range(k)]
arr = np.array(list_of_arrays)
return arr

def numpy_all_the_way(k):
arr = np.empty((N, M))
for x in range(k):
arr[x] = x * np.ones(M)
arr.resize((k, M))
return arr

if __name__ == '__main__':
print(f'Initial memory usage: {memory_usage()}')
arr = python_lists_to_array(5000)
print(f'After python_lists_to_array: {memory_usage()}')
arr = numpy_all_the_way(5000)
print(f'After numpy_all_the_way: {memory_usage()}')

测试结果显示,无论是执行时间还是内存使用情况,numpy_all_the_way方法都优于python_lists_to_array方法,特别是在处理较大规模数据集时,性能提升尤为明显。


推荐阅读
  • 对象自省自省在计算机编程领域里,是指在运行时判断一个对象的类型和能力。dir能够返回一个列表,列举了一个对象所拥有的属性和方法。my_list[ ... [详细]
  • Python处理Word文档的高效技巧
    本文详细介绍了如何使用Python处理Word文档,涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]
  • 开发笔记:9.八大排序
    开发笔记:9.八大排序 ... [详细]
  • 在本教程中,我们将深入探讨如何使用 Python 构建游戏的主程序模块。通过逐步实现各个关键组件,最终完成一个功能完善的游戏界面。 ... [详细]
  • 利用决策树预测NBA比赛胜负的Python数据挖掘实践
    本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据,结合《Python数据挖掘入门与实践》一书中的方法,展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]
  • 本文详细介绍了Python中列表的创建、访问、修改、排序及遍历等基本操作,帮助初学者快速掌握列表这一重要数据结构。 ... [详细]
  • 本文将详细探讨Linux pinctrl子系统的各个关键数据结构,帮助读者深入了解其内部机制。通过分析这些数据结构及其相互关系,我们将进一步理解pinctrl子系统的工作原理和设计思路。 ... [详细]
  • #点球小游戏fromrandomimportchoiceimporttimescore[0,0]direction[left,center,right]defkick() ... [详细]
  • 本文探讨了在使用Selenium进行自动化测试时,由于webdriver对象实例化位置不同而导致浏览器闪退的问题,并提供了详细的代码示例和解决方案。 ... [详细]
  • 深入解析for与foreach遍历集合时的性能差异
    本文将详细探讨for循环和foreach(迭代器)在遍历集合时的性能差异,并通过实际代码示例和源码分析,帮助读者理解这两种遍历方式的不同之处。文章内容丰富且专业,旨在为编程爱好者提供有价值的参考。 ... [详细]
  • 本文介绍如何使用 Android 的 Canvas 和 View 组件创建一个简单的绘图板应用程序,支持触摸绘画和保存图片功能。 ... [详细]
  • 本文详细介绍了Python中的可迭代对象、迭代器和生成器的概念及实现方式。通过实例代码展示如何创建和使用这些对象,帮助读者更好地理解和掌握其原理。 ... [详细]
  • 使用Python计算文件的CRC32校验值
    本文记录了一次对路由器固件分析时,如何利用Python计算文件的CRC32校验值。文中提供了完整的代码示例,并详细解释了实现过程。 ... [详细]
  • 本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机(MLP)网络,涵盖回归和分类任务。通过具体示例和代码实现,帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]
  • 二维几何变换矩阵解析
    本文详细介绍了二维平面上的三种常见几何变换:平移、缩放和旋转。通过引入齐次坐标系,使得这些变换可以通过统一的矩阵乘法实现,从而简化了计算过程。文中不仅提供了理论推导,还附有Python代码示例,帮助读者更好地理解这些概念。 ... [详细]
author-avatar
属于小草的树洞
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有