当前位置: 开发笔记 > 编程语言 > 正文

PythonNumpy数组创建技巧：从列表到高效Numpy数组转换

作者：属于小草的树洞 | 来源：互联网 | 2024-11-23 16:46

本文探讨了在已知最终数组尺寸不会超过5000x10的情况下，如何利用预分配和调整大小的方法来优化Numpy数组的创建过程，以提高性能并减少内存消耗。

当预计最终数组的大小不会超出5000x10时，采用预分配一个最大尺寸的数组，并通过循环逐步填充数据，之后使用arr.resize()方法根据实际需要调整数组大小，是一种有效的方法。

这种方法不仅能够避免因频繁扩展数组而导致的性能下降，还能在最终确定数组大小后释放未使用的内存，从而实现更优的内存管理。

与直接使用Python列表构建中间结果再转换为Numpy数组相比，这种预分配和调整大小的方法在处理大规模数据时表现出了显著的性能优势和更低的内存占用。

以下是具体的性能对比测试结果：

对于不同规模的数据集，使用两种不同的方法进行测试：

使用numpy_all_the_way方法（预分配和调整大小）
使用python_lists_to_array方法（先构建列表再转换）

测试代码如下：

import numpy as np
import os

def memory_usage():
    pid = os.getpid()
    with open(f'/proc/{pid}/status') as f:
        for line in f:
            if line.startswith('VmSize'):
                return int(line.split()[1])

N, M = 5000, 10

def python_lists_to_array(k):
    list_of_arrays = [x * np.ones(M) for x in range(k)]
    arr = np.array(list_of_arrays)
    return arr

def numpy_all_the_way(k):
    arr = np.empty((N, M))
    for x in range(k):
        arr[x] = x * np.ones(M)
    arr.resize((k, M))
    return arr

if __name__ == '__main__':
    print(f'Initial memory usage: {memory_usage()}')
    arr = python_lists_to_array(5000)
    print(f'After python_lists_to_array: {memory_usage()}')
    arr = numpy_all_the_way(5000)
    print(f'After numpy_all_the_way: {memory_usage()}')

测试结果显示，无论是执行时间还是内存使用情况，numpy_all_the_way方法都优于python_lists_to_array方法，特别是在处理较大规模数据集时，性能提升尤为明显。

推荐阅读

config
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
range
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
bit
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
range
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
range
Java 类成员初始化顺序与数组创建

本文探讨了Java中类成员的初始化顺序、静态引入、可变参数以及finalize方法的应用。通过具体的代码示例，详细解释了这些概念及其在实际编程中的使用。 ... [详细]

蜡笔小新 2024-12-27 19:39:42
join
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
config
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
utf-8
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
utf-8
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
utf-8
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
select
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
select
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
dll
C#中获取进程主窗口句柄的实现方法

本文介绍了如何在C#中启动一个应用程序，并通过枚举窗口来获取其主窗口句柄。当使用Process类启动程序时，我们通常只能获得进程的句柄，而主窗口句柄可能为0。因此，我们需要使用API函数和回调机制来准确获取主窗口句柄。 ... [详细]

蜡笔小新 2024-12-27 03:39:09
config
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
config
Java中访问器与修改器的深入解析

本文详细介绍了Java中的访问器（getter）和修改器（setter），探讨了它们在保护数据完整性、增强代码可维护性方面的重要作用。通过具体示例，展示了如何正确使用这些方法来控制类属性的访问和更新。 ... [详细]

蜡笔小新 2024-12-26 17:25:24

属于小草的树洞

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章