Python多重处理可加快I/O和Groupby/Sum

作者：手浪用户2602925023 | 来源：互联网 | 2023-06-18 20:22

我有一个约2亿行，约10个分组变量和约20个变量相加的数据集，并且是一个约50GB的c

我有一个约2亿行，约10个分组变量和约20个变量相加的数据集，并且是一个约50GB的csv。我要做的第一件事是查看运行时是按顺序但按块顺序运行的。这有点复杂，因为某些groupby实际上处于另一个聚合级别的另一个数据集中，因此只有200mb。所以现在相关的代码如下：

group_cols = ['cols','to','group','by'] cols_to_summarize = ['cols','summarize'] groupbys = [] df = pd.read_csv("file/path/df.csv",chunksize=1000000) for chunk in df: chunk = chunk.merge(other_df,left_on="id",right_index=True,how="inner") groupbys.append(chunk.groupby(group_cols)[cols_to_summarize].sum()) finalAgg = pd.concat(groupbys).groupby(group_cols)[cols_to_summarize].sum()

每个块大约需要5秒钟来处理，因此200个块大约需要15-20分钟。我正在使用的服务器具有16个内核，所以我希望在这里获得一些提速，如果可以将它提高到2-3分钟，那将是惊人的。

但是，当我尝试使用多进程时，我正在竭力使速度大大提高。基于我的谷歌搜索，我认为这将有助于读取CSV，但我想知道是否多个进程无法读取同一CSV，也许我应该先将其拆分？这是我尝试过的方法，它花了比顺序运行更长的时间：

def agg_chunk(start): [pull in small dataset] chunk = pd.read_csv("file/path/df.csv",skiprows=range(1,start+1),nrows=1000000) chunk = chunk.merge(other_df,how="inner") return chunk.groupby(group_cols)[cols_to_summarize].sum() if __name__ == "__main__": pool = mp.Pool(16) r = list(np.array(range(200))*1000000) groupbys = pool.map(agg_chunk,r) finalAgg = pd.concat(groupbys).groupby(group_cols)[cols_to_summarize].sum()

有更好的方法吗？额外的[拉入小型数据集]块需要大约5秒钟，但是将每个进程的时间加倍，然后除以16，仍然应该是一个相当不错的提速对吗？相反，并行版本已运行了半个小时，但仍未完成。还有什么方法可以将数据集传递给每个过程，而不是让每个过程都重新创建一次？

推荐阅读

python
开发笔记:python协程的理解

篇首语：本文由编程笔记#小编为大家整理，主要介绍了python协程的理解相关的知识，希望对你有一定的参考价值。一、介绍什么是并发?并发的本质就是 ... [详细]

蜡笔小新 2023-10-17 14:16:13
python
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
object
Python爬虫技术基础篇面向对象高级编程（中）的多重继承

本文介绍了Python爬虫技术基础篇面向对象高级编程（中）中的多重继承概念。通过继承，子类可以扩展父类的功能。文章以动物类层次的设计为例，讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例，以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]

蜡笔小新 2023-12-12 16:19:02
python
Python – 按地址在内存中引用对象

这是一个愚蠢的问题,但我只是对此感到好奇.假设我在Pythonshell,我有一些我查询的数据库对象.我做：db.query(的queryString)该查询在0xffdf842c ... [详细]

蜡笔小新 2023-12-12 13:28:00
get
欢乐的票圈重构之旅——RecyclerView的头尾布局增加

项目重构的Git地址：https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集：http:www.jianshu.comno ... [详细]

蜡笔小新 2023-12-11 19:09:56
python
十大经典排序算法动图演示+Python实现

本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序，常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念，并提供了相关的名词解释。 ... [详细]

蜡笔小新 2023-12-10 19:28:59
get
颜色迁移（reinhard VS welsh）

不要谈什么天分，运气，你需要的是一个截稿日，以及一个不交稿就能打爆你狗头的人，然后你就会被自己的才华吓到。------ ... [详细]

蜡笔小新 2023-10-17 21:20:36
schema
Incorrect implementation of List field deserialization

Problemexplanation: ... [详细]

蜡笔小新 2023-10-16 21:42:08
python
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
object
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
get
JavaSE笔试题-接口、抽象类、多态等问题解答

本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征，以及Java中实现多态的机制。 ... [详细]

蜡笔小新 2023-12-14 10:01:13
text
PHP实现断点续传乱序合并文件的方法和源码

本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因，文件需要分割成多个部分发送，因此无法按顺序接收。文章中提供了merge2.php的源码，通过使用shuffle函数打乱文件读取顺序，实现了乱序合并文件的功能。同时，还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]

蜡笔小新 2023-12-14 04:33:19
char
Java中包装类的设计原因以及操作方法

本文主要介绍了Java中设计包装类的原因以及操作方法。在Java中，除了对象类型，还有八大基本类型，为了将基本类型转换成对象，Java引入了包装类。文章通过介绍包装类的定义和实现，解答了为什么需要包装类的问题，并提供了简单易用的操作方法。通过本文的学习，读者可以更好地理解和应用Java中的包装类。 ... [详细]

蜡笔小新 2023-12-12 15:48:10
get
Android系统源码分析Zygote和SystemServer启动过程详解

本文详细解析了Android系统源码中Zygote和SystemServer的启动过程。首先介绍了系统framework层启动的内容，帮助理解四大组件的启动和管理过程。接着介绍了AMS、PMS等系统服务的作用和调用方式。然后详细分析了Zygote的启动过程，解释了Zygote在Android启动过程中的决定作用。最后通过时序图展示了整个过程。 ... [详细]

蜡笔小新 2023-12-11 17:46:46
get
MVP架构模式及其在国庆技术博客中的应用

本文介绍了MVP架构模式及其在国庆技术博客中的应用。MVP架构模式是一种演变自MVC架构的新模式，其中View和Model之间的通信通过Presenter进行。相比MVC架构，MVP架构将交互逻辑放在Presenter内部，而View直接从Model中读取数据而不是通过Controller。本文还探讨了MVP架构在国庆技术博客中的具体应用。 ... [详细]

蜡笔小新 2023-12-11 11:57:58

手浪用户2602925023

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章