Python：在pandas数据帧上使用多处理

作者：zx15899966868 | 来源：互联网 | 2023-07-29 11:28

我想在大型数据集上使用多处理来查找两个gps点之间的距离.我构建了一个测试集,但是我无法使用多处理来处理这个集合.importpandasaspdfrom

我想在大型数据集上使用多处理来查找两个gps点之间的距离.我构建了一个测试集,但是我无法使用多处理来处理这个集合.

import pandas as pd from geopy.distance import vincenty from itertools import combinations import multiprocessing as mp df = pd.DataFrame({'ser_no': [1, 2, 3, 4, 5, 6, 7, 8, 9, 0],'co_nm': ['aa', 'aa', 'aa', 'bb', 'bb', 'bb', 'bb', 'cc', 'cc', 'cc'],'lat': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],'lon': [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]}) def calc_dist(x): return pd.DataFrame( [ [grp, df.loc[c[0]].ser_no, df.loc[c[1]].ser_no, vincenty(df.loc[c[0], x], df.loc[c[1], x]) ] for grp,lst in df.groupby('co_nm').groups.items() for c in combinations(lst, 2) ], columns=['co_nm','machineA','machineB','distance']) if __name__ == '__main__': pool = mp.Pool(processes = (mp.cpu_count() - 1)) pool.map(calc_dist, ['lat','lon']) pool.close() pool.join()

当发生此错误时,我在Windows7 Professional上使用Python 2.7.11和Ipython 4.1.2与Anaconda 2.5.0 64位.

runfile(‘C:/…/Desktop/multiprocessing test.py’, wdir=’C:/…/Desktop’)

Traceback (most recent call last):
File “”, line 1, in

runfile(‘C:/…/Desktop/multiprocessing test.py’, wdir=’C:/…/Desktop’)
File “C:…\Local\Continuum\Anaconda2\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py”, line 699, in runfile

execfile(filename, namespace)
File “C:…\Local\Continuum\Anaconda2\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py”, line 74, in execfile

exec(compile(scripttext, filename, ‘exec’), glob, loc)
File “C:/…./multiprocessing test.py”, line 33, in

pool.map(calc_dist, [‘lat’,’lon’])
File “C:…\AppData\Local\Continuum\Anaconda2\lib\multiprocessing\pool.py”, line 251, in map

return self.map_async(func, iterable, chunksize).get()
File “C:…\Local\Continuum\Anaconda2\lib\multiprocessing\pool.py”, line 567, in get

raise self._value
TypeError: Failed to create Point instance from 1.

def get(self, timeout=None): self.wait(timeout) if not self._ready: raise TimeoutError if self._success: return self._value else: raise self._value

解决方法:

怎么了

您的代码中的这一行：

pool.map(calc_dist, ['lat','lon'])

产生2个进程 – 一个运行calc_dist(‘lat’),另一个运行calc_dist(‘lon’).比较doc中的第一个示例.(基本上,pool.map(f,[1,2,3])使用下面列表中给出的参数调用f三次：f(1),f(2)和f( 3).)如果我没弄错,你的函数calc_dist只能被称为calc_dist(‘lat’,’lon’).它不允许并行处理.

解

我相信你想要在进程之间拆分工作,可能会将每个元组(grp,lst)发送到一个单独的进程.以下代码就是这样做的.

首先,让我们准备分裂：

grp_lst_args = list(df.groupby('co_nm').groups.items()) print(grp_lst_args) [('aa', [0, 1, 2]), ('cc', [7, 8, 9]), ('bb', [3, 4, 5, 6])]

我们将发送这些元组中的每一个(这里,其中有三个)作为单独进程中函数的参数.我们需要重写函数,我们称之为calc_dist2.为方便起见,它的参数是一个元组,如calc_dist2((‘aa’,[0,1,2]))

def calc_dist2(arg): grp, lst = arg return pd.DataFrame( [ [grp, df.loc[c[0]].ser_no, df.loc[c[1]].ser_no, vincenty(df.loc[c[0], ['lat','lon']], df.loc[c[1], ['lat','lon']]) ] for c in combinations(lst, 2) ], columns=['co_nm','machineA','machineB','distance'])

现在来了多处理：

pool = mp.Pool(processes = (mp.cpu_count() - 1)) results = pool.map(calc_dist2, grp_lst_args) pool.close() pool.join() results_df = pd.concat(results)

results是grp_lst_args中(grp,lst)的调用calc_dist2((grp,lst))的结果列表(此处为数据框).结果元素稍后连接到一个数据框.

print(results_df) co_nm machineA machineB distance 0 aa 1 2 156.876149391 km 1 aa 1 3 313.705445447 km 2 aa 2 3 156.829329105 km 0 cc 8 9 156.060165391 km 1 cc 8 0 311.910998169 km 2 cc 9 0 155.851498134 km 0 bb 4 5 156.665641837 km 1 bb 4 6 313.214333025 km 2 bb 4 7 469.622535339 km 3 bb 5 6 156.548897414 km 4 bb 5 7 312.957597466 km 5 bb 6 7 156.40899677 km

顺便说一句,在Python 3中我们可以使用带构造：

with mp.Pool() as pool: results = pool.map(calc_dist2, grp_lst_args)

更新

我只在linux上测试过这段代码.在linux上,只读数据框df可以被子进程访问,并且不会被复制到它们的内存空间,但我不确定它在Windows上是如何工作的.您可以考虑将df拆分为块(按co_nm分组)并将这些块作为参数发送到某个其他版本的calc_dist.

推荐阅读

text
开发笔记:Spring执行ApplicationEvent事件顺序ServletWebServerInitializedEvent

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Spring执行ApplicationEvent事件顺序ServletWebServerInitializedEvent相关的知识，希望对你有一 ... [详细]

蜡笔小新 2024-09-27 13:36:27
text
itextcss样式的简单介绍

pdf怎么把html变成pdf1　用AdobeAcroat8.1.2，打开网页后，页面右键菜单中会出现一个“转换为AobePDF的选项，点击就可以转换。　安装AdobeAcroba ... [详细]

蜡笔小新 2024-09-28 11:07:23
python
python3.5安装教程及环境配置_Eric6+PyQt5+Python3.5开发环境安装配置图文教程

Python3.5.2（x32）是目前兼容较好的版本，可以搭配PyQt5的界面设计以及eric6的整合编程平台，达到不错的编 ... [详细]

蜡笔小新 2024-09-29 20:26:16
get
NSSROUND#8[Basic]

文章目录一、[NSSRound#8Basic]MyDoor二、[NSSRound#8Basic]Upload_gogoggo三、[NSSRound#8Basic]MyPage四、[ ... [详细]

蜡笔小新 2024-09-29 11:48:56
text
配置OracleACFS集群文件系统

配置OracleACFS集群文件系统 2012-07-1010:18:39标签：asmacfs版权声明：原创作品，谢绝转载！否则将追究法律责任。 ... [详细]

蜡笔小新 2024-09-28 16:33:10
text
11 微服务网关（一）概念介绍 Zuul简单入门

11.1服务网关的概念11.1.1什么是微服务网关11.1.2作用和应用场景11.2常见的API网关实现方式11.3基于Nginx的网关实现IP地址映射到路径，统一 ... [详细]

蜡笔小新 2024-09-27 23:59:10
text
Android(8) RecyclerView适配器实现多布局item+item内部控件点击事件

先看看效果是不是自己想要的吧item及item内部控件点击事件不懂的可以先点击查看 ... [详细]

蜡笔小新 2024-09-27 18:42:37
text
零入门kubernetes网络实战15＞基于golang编程实现给ns网络命名空间添加额外的网卡

《零入门kubernetes网络实战》视频专栏地址https:www.ixigua.com7193641905282875942本篇文章视频地址(稍后上传)本篇文章主要是想通过g ... [详细]

蜡笔小新 2024-09-27 16:47:20
text
Go 中的 init 函数

Go 中的 init 函数 ... [详细]

蜡笔小新 2024-09-27 15:01:41
get
开发笔记:在单独的JVM上执行新的JavaFX应用程序

篇首语：本文由编程笔记#小编为大家整理，主要介绍了在单独的JVM上执行新的JavaFX应用程序相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-27 08:36:44
php
springboot系列（二）创建springboot工程

https:www.cnblogs.commagicalSamp7171716.html简介SpringBoot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spri ... [详细]

蜡笔小新 2024-09-27 04:29:57
function
如何对三重嵌套循环进行矢量化？ - How to vectorize triple nested loops?

IvedonesearchingsimilarproblemsandIhaveavagueideaaboutwhatshouldIdo:tovectorizeev ... [详细]

蜡笔小新 2024-09-26 19:03:41
format
Metasploit攻击渗透实践

本文介绍了Metasploit攻击渗透实践的内容和要求，包括主动攻击、针对浏览器和客户端的攻击，以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码，以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]

蜡笔小新 2023-12-14 12:14:09
text
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
text
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14

zx15899966868

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章