[译]在Python中，如何运用Dask数据进行并行数据分析

作者：mobiledu2502921803 | 来源：互联网 | 2023-08-08 12:47

多维度思维。来源：Pixabay有时你通过Python’sPandas打开一个大的数据集，然后试着去

多维度思维。来源：Pixabay

有时你通过Python’s Pandas 打开一个大的数据集，然后试着去获取一些度量标准，但这时整个过程可能会突然停止。如果你使用 Pandas 处理大数据，可能一个简单的序列平均值都需要你等待一分钟，我们甚至不会去调用 apply 。这还只是百万级别的行数！当你的数据达到亿级别时，你最好使用 Spark 或者其他方式。

我在不久之前发现了这个工具：不需要更好的基础架构或转换语言，就可以在 Python 中加速数据分析的方法。但是如果数据集太大，它的最终优化结果会一定的限制，但是它仍然比常规的 Pandas 扩展性好，可能也更符合你的问题场景 —— 尤其是不进行大量的重写索引时。

什么是 Dask？

Dask 是一个开源项目，为你提供 NumPy 数组、Pandas Dataframes 以及常规 list 的抽象，允许你使用多核处理器并行运行它们的操作。

以下是来自本教程的摘录：

Dask 提供了更高级别的 Array、Bag、和 DataFrame 集合，它们模仿 NumPy、list 和 Pandas，但允许在不适合主内存的数据集上并行操作。对于大型数据集，Dask 的高级集合可以取代 NumPy 和 Pandas。

这听上去很好！为了这篇文章，我特意试用了 Dask Dataframs，并在其上运行了几个基准测试。

阅读文档

我首先阅读了官方文档，看看在 Dask 的文档中的精确推荐，而不是常规 Dataframse。以下是官方文档的部分内容：

操作大型数据集，即使这些数据不适用于内存
使用尽可能多的内核来加速长时间计算
在大的数据集上，通过标准的 Pandas 操作，如集群、连接、还有时间序列计算，来对计算做分布式处理。

接下来，它列出了一些很快的场景，但前提是你在使用 Dask 数据：

算术运算（对序列进行乘或加）
常用聚合（均值、最小值、最大值、和等）
调用 apply（只要它是索引，而非 groupby(‘y’)，其中 y 并非索引）
调用 value_counts()、drop_duplicates() 或 corr()
用 Loc 、 isin 和逐行选择进行过滤

如果发现它有用，只对数据过滤进行一次小浏览就行。

#通过引用仅，返回 x >5 的行（根据起初的 df 写入更改）
df2 = df.loc[df['x'] > 5]
#通过引用，仅返回x 为 0、1、2、3 或 4 的行
df3 = df.x.isin(range(4))
#通过只读引用，仅返回 x > 5 的行（不能被写）
df4 = df[df['x']>5]

如何使用 Dask Dataframes

Dask Dataframes 具有与 Pandas Dataframes 相似的 API，只有聚合和 apply 是延迟计算，你需要通过调用 compute 方法来计算。为了生成一个 Dask Dataframe，你可以像在 Pandas 中那样简单调用 read_csv 方法，或只调用给定的一个 Pandas Dataframe df 。

dd = ddf.from_pandas(df, npartitiOns=N)

ddf是你使用 DASK Dataframes 导入的名称，而 nparitions 是一个参数，它告诉 Dataframe 你期望如何对它进行分区。

StackOverflow，建议将 Dataframe 划分到你计算机内核数目相同的分区中，或是这个数字的几倍，因为每个分区都会运行在不同的线程上，如果有太多线程，它们之间将变得过于昂贵。

开始：进行基准测试！

我开发了一个 Jupyter 笔记来尝试使用这个框架，并且发布在 Github 上，这样你可以查看具体信息甚至是亲自运行它。

我运行的基准测试可以在 GitHub 上获取，这里列举了主要内容：

def get_big_mean():
    return dfn.salary.mean().compute()
def get_big_mean_old():
    return df3.salary.mean()

def get_big_max():
    return dfn.salary.max().compute()
def get_big_max_old():
    return df3.salary.max()

def get_big_sum():
    return dfn.salary.sum().compute()
def get_big_sum_old():
    return df3.salary.sum()

def filter_df():
    df = dfn[dfn['salary']>5000]
def filter_df_old():
    df = df3[df3['salary']>5000]

这是一个有着 2500 万行的常规 df3 ，内容是使用来自上一篇文章中的脚本生成的（从列表中随机抽取的列名是 name、surname 以及 salary ）。我使用了 50 行数据集，并将其连接了 50 万次，因为我只对它运行所需时间感兴趣，对于分析 Per se 却不感兴趣。

dfn是基于 df3 的 Dask Dataframe。

第一批次的结果：不太乐观

首先，我尝试用 3 个分区进行测试，因为我只有 4 个内核，所以不想过度使用我的 PC。我用 Dask 的结果不是很理想，而且还必须等待很长时间才能获取结果，我担心这可能是因为我做的分区太少了：

204.313940048 seconds for get_big_mean
39.7543280125 seconds for get_big_mean_old

131.600986004 seconds for get_big_max
43.7621600628 seconds for get_big_max_old

120.027213097 seconds for get_big_sum
7.49701309204 seconds for get_big_sum_old

0.581165790558 seconds for filter_df
226.700095892 seconds for filter_df_old

你可以看到，当我是用 Dask 时，大多数操作的速度都要慢得多。这给我了一个提示，那就是我可能不得不使用更多的分区。生成延迟评估所花费的数量也是可以忽略不计的（在某些情况下不到半秒），如果我重用它们，就不会随着时间的推移而摊销。

我还使用了 apply 方法测试它：

def f(x):
    return (13*x+5)%7

def apply_random_old():
    df3['random']= df3['salary'].apply(f)
    
def apply_random():
    dfn['random']= dfn['salary'].apply(f).compute()

结果并无差别：

369.541605949 seconds for apply_random
157.643756866 seconds for apply_random_old

因此，一般情况下，尽管过滤器的速度要快得多，但大多数操作的速度仍然是原来的两倍。我担心的是，也许我也应该调用 compute 这个函数，所以把这个结果作为对比。

更多分区：惊人的速度

再这样令人沮丧的结果之后，我认为可能是我还没有使用足够的分区。这样做的要点是并行运行，或许是我需要更多的并行化？因此我对 8 个分区进行了相同的测试，下面是我得到的结果（我忽略了非并行 dataframe，因为它们基本是相同的）：

3.08352184296 seconds for get_big_mean
1.3314101696 seconds for get_big_max
1.21639800072 seconds for get_big_sum
0.228978157043 seconds for filter_df

112.135010004 seconds for apply_random
50.2007009983 seconds for value_count_test

没错，大多数操作的运行速度是常规 Dataframe 的 10 倍以上， apply 获得了更快的速度！我还在 salary 序列上运行了 value_count 方法。对于上下文，请记住，当我在常规的 Dataframe 上运行这个测试时，我等待了 10 分钟之后，我不得不停止这个过程，这一次只花了 50 秒！基本上，我只是用错了工具，而且非常快。比普通的 Dataframes 快得多。

结论

考虑到我在一台非常旧的 4 核 PC 上，一分钟内运行 2.5 亿行内容，我觉得它会在实际应用中有着举足轻重的地位。因此我建议，下次你处理本地或从单个 AWS 实例中处理数据集时，可以考虑使用这个框架，它真的非常高效。

我希望你觉得这盘文章有用或者有趣！编写他所花费的时间超过我的预期，因为一些基准测试花费的时间 太长了 。记得告诉我在阅读之前你是否了解过 Dask，或者你是否在工作或项目中使用过它。另外，如果有其他更棒的功能，记得告诉我，我并没有检测我是否做错了什么内容！你的回馈和评论是我写作的重要原因之一，因为我们都在从中成长。

如果你喜欢这篇文章，可以继续支持我。可以继续支持我的写作。同时你还可以在我这里了解更多 Python 教程、提示和技巧！

如果发现译文存在错误或其他需要改进的地方，欢迎到掘金翻译计划对译文进行修改并 PR，也可获得相应奖励积分。文章开头的 本文永久链接 即为本文在 GitHub 上的 MarkDown 链接。

掘金翻译计划是一个翻译优质互联网技术文章的社区，文章来源为掘金上的英文分享文章。内容覆盖 Android 、 iOS 、前端、后端、区块链、产品、设计、人工智能等领域，想要查看更多优质译文请持续关注掘金翻译计划、官方微博、知乎专栏。

以上所述就是小编给大家介绍的《[译] 在 Python 中，如何运用 Dask 数据进行并行数据分析》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们的支持！

推荐阅读

sum
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
random
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
filter
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
const
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
sum
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
post
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
const
优化分页组件：高效渲染数据数组

在处理大规模数据数组时，优化分页组件对于提高页面加载速度和用户体验至关重要。本文探讨了如何通过高效的分页策略，减少数据渲染的负担，提升应用性能。具体方法包括懒加载、虚拟滚动和数据预取等技术，这些技术能够显著降低内存占用和提升响应速度。通过实际案例分析，展示了这些优化措施的有效性和可行性。 ... [详细]

蜡笔小新 2024-11-11 10:02:01
regex
python模块之正则

re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求，从一段字符串中找到符合要求的内容。在 ... [详细]

蜡笔小新 2024-11-14 15:52:38
regex
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
filter
Python 忽略警告和错误的方法详解

本文详细介绍了如何在 Python 中忽略警告和错误，提供了多种实现方法，并解释了其背后的原理。对于希望提高代码健壮性和可读性的开发者来说，这些方法非常实用。 ... [详细]

蜡笔小新 2024-11-12 10:06:17
stream
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
sum
Python | 字符串中案例数量的统计分析

Python | 字符串中案例数量的统计分析 ... [详细]

蜡笔小新 2024-11-11 12:35:36
sum
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
jsp
深入解析Java虚拟机的内存分区与管理机制

Java虚拟机的内存分区与管理机制复杂且精细。其中，某些内存区域在虚拟机启动时即创建并持续存在，而另一些则随用户线程的生命周期动态创建和销毁。例如，每个线程都拥有一个独立的程序计数器，确保线程切换后能够准确恢复到之前的执行位置。这种设计不仅提高了多线程环境下的执行效率，还增强了系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 19:53:02
spring
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21

mobiledu2502921803

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章