Alluxio+NVIDIAGPUs:加速分析和人工智能

作者：I_amkaiman | 来源：互联网 | 2023-09-04 20:28

Alluxi

作者简介

Karthikeyan Rajendra

NVIDIA 数据科学团队产品经理，前GE工业物联网平台Predix 的首席产品经理，曾在高通、EMC和ZS Associates等公司担任重要的技术和战略岗位。Karthikeyan拥有加州大学洛杉矶分校MBA学位和亚利桑那州立大学的硕士学位。

孟东

NVIDIA 解决方案架构工程师，在大数据平台和加速器性能优化方面有着丰富的经验；负责与公共云服务厂商合作，为机器学习训练/推理和数据分析部署基于云的GPU加速解决方案。

朱禹

Alluxio软件工程师，负责元数据管理和端到端性能基准测试和优化；拥有加州大学伯克利分校博士学位，主攻数据中心的分布式数据管理系统和操作系统。

Adit Madan

Alluxio高级产品经理兼市场经理，同时也是 Alluxio开源项目的核心维护者和PMC成员。在加入 Alluxio 前曾担任惠普实验室的研究工程师，在分布式系统、存储系统和大规模数据分析方面拥有丰富的经验。Adit 拥有卡内基·梅隆大学硕士学位。

越来越多的数据处理使用NVIDIA 计算来实现大规模并行。加速计算的发展意味着无论是在分析、人工智能 (AI) 还是机器学习 (ML) 过程中，对存储的访问也需要更快。

如果数据访问很大程度影响执行时间，那么GPU加速带来的好处将是有限的。基于GPU的处理与基于CPU 的集群相比，可以驱动更高的数据访问吞吐量。随着用于分析和人工智能的处理集群与数据存储系统的分离，加速数据访问将变得更加重要。

NVIDIA已经和Alluxio社区开展合作，对大规模数据集缓存和GPU数据可用性进行高性能数据编排系统测试。Apache Spark 3.0，RAPIDS Accelerator for Apache Spark和 Alluxio 可用于：(1) 数据分析和商业智能；(2) 数据科学的数据预处理和特征工程。对于模型训练或推理，GPU 集群上的Spark 和分布式 TensorFlow 或PyTorch 都受益于使用分布式平台无关（distributed platform agnostic）的编排层所带来的 I/O 加速。

在本文中，我们将探讨：

在数据工作流的各个阶段，包括从数据提取-转换-加载(ETL) 到分析和人工智能/机器学习（AI/ML）阶段使用Alluxio数据编排平台的部署架构。
如何通过用于RAPIDS Accelerator for Apache Spark和Alluxio在无需修改任何代码的情况下加速Spark SQL/Dataframe。
使用Alluxio和RAPIDS Accelerator for Apache Spark的最佳实践。
GPU加速的Apache Spark，TensorFlow 或PyTorch在使用 Alluxio时的部署选项。

统一I/O 加速用于数据导入、ETL、分析和模型训练

典型的分析、机器学习或人工智能工作流是包含数据导入到数据准备，再到分析或人工智能的一系列步骤。为模型训练准备数据涉及数据预处理和特征工程，我们将其称为 ETL（提取-转换-加载）。分析工作流中的数据清理需要采用类似的步骤。

数据分析和ETL多使用Spark SQL和Dataframe API，二者通常都是迭代程序。随着GPU 和大型数据集的使用越来越多，对数据源的直接处理将得益于分布式缓存起到的I/O加速作用。

Alluxio数据编排层可用作数据流多个步骤共享的多数据源分布式缓存。Alluxio不受平台影响，提供了与平台的解耦，无论平台是部署在本地还是云上托管的 Hadoop 或 Kubernetes上。如图 1 所示，该架构通常适用于多种环境，可以根据当前阶段和工作负载类型灵活选择最适合的数据处理技术和基础架构。

图 1：在NVIDIA GPU 集群上部署多阶段分析或AI工作流用于计算加速并部署Alluxio用于加速数据访问。

RAPIDS用于Spark SQL和DataFrame的I/O加速

使用 RAPIDS Accelerator for Apache Spark的Apache Spark 3.0 能够在GPU加速的集群上对Spark SQL 或 DataFrame 作业进行并行计算。但是，此类作业的很大一部分是从远程数据源读取数据。如果数据访问速度缓慢，I/O 可能会影响端到端的应用程序执行时间。

使用Spark SQL和DataFrames的处理作业可以在NVIDIA GPU上运行，无需修改任何代码，且处理作业也得益于Apache Spark的RAPIDS 加速器中包含的优化。同样，如果使用 Alluxio 作为 Spark 应用程序的数据源，在不修改代码的情况下，就可以从部署数据编排层所带来的 I/O 加速中获益。图2显示了可用于GPU支持实例的推荐软件堆栈，在这里Alluxio利用CPU 和本地存储介质（如 NVMe）来管理缓存数据，而Spark利用GPU资源进行计算。

图 2. NVIDIA GPU 上的 Apache Spark 用于基于 SQL 的分析或用于ETL进行数据处理。

数据加载

使用RAPIDS Accelerator for Apache Spark和Alluxio时无需修改应用程序。下文讨论了用户最初可能遇到的两种场景。

场景1：对于使用Alluxio架构读取数据的现有用户，在使用RAPIDS Accelerator for Apache Spark时无需进行任何修改。可以像以前一样将数据加载到 Spark DataFrame 中，无需修改代码。

val df = spark.read.parquet("alluxio://ALLUXIO_MASTER_IP:PORT/foo")

场景2：对于正在使用 Spark 应用程序但想要首次部署Alluxio和RAPIDS加速器的用户，将使用Spark配置参数把现有存储路径映射到Alluxio路径。

用户应使用RAPIDS Spark配置参数来配置此映射，如下所示：

--conf spark.rapids.alluxio.pathsToReplace="gs://foo->alluxio://ALLUXIO_MASTER_IP:PORT/foo"

使用配置参数集后，替换后的路径无需修改应用程序。例如，下述加载的Spark DataFrame 将按照路径 alluxio://ALLUXIO_MASTER_IP:PORT/foo 从Alluxio读取数据。

val df = spark.read.parquet("gs://foo")

此示例假设Bucket foo挂载在Alluxio FileSystem命名空间中的 /foo 位置。

基准测试结果

本节对高性能数据编排系统（使用 RAPIDS Accelerator for Apache Spark和 Alluxio）对于大型数据集的缓存和用于GPU处理的数据可用性的影响进行评估。我们使用了近 90 个 NVIDIA 决策支持 (NDS) 查询以及来自主流数据分析基准套件的相应数据集。这些基准查询运行3 TB 数据集, 该数据集以Parquet 格式存储在 Google Cloud Storage bucket中。

下图显示，在将90个NDS查询的总运行时间进行比较后发现，部署 Alluxio的NVIDIA GPU集群的性能提高了近 2 倍，与CPU集群相比，投资回报率（ROI）提高了70%。Google Cloud Dataproc 用于在CPU和GPU 集群的计算实例上部署服务。使用的实例配置见下图。

这些提升大多归功于Alluxio对于大型数据集的缓存能力，因此可以避免重复访问云存储。数据处理能力的增强使得数据科学家在整个数据科学生命周期中执行多项任务（例如数据导入、数据准备和数据探索）时都可获益，从而提高性能并降低成本。

图 3：CPU 硬件配置：Master：n1-standard-4，Slave：4 x n1-standard-32（128 核，480GB RAM），GPU 硬件配置：Master：n1-standard-4，Slave：4 x n1- standard-32（128 核，480GB RAM + 16 x T4），CPU 云成本：7.82 美元/小时（基于 4 x n1-standard-32 的标准定价 + Dataproc 定价），GPU 云成本：13.41 美元/小时（基于 4 x n1-standard-32 + 16 xT4 的标准定价+ DataProc 定价）

部署Alluxio和Spark RAPIDS的最佳实践

Alluxio和 RAPIDS Accelerator for Apache Spark在默认配置下就能实现显著的性能改进，进行额外调优可进一步提高ROI。本节提供了此类推荐列表。

1. 将Alluxio工作节点与Spark工作节点部署在一起（co-locate）

Co-location使得应用程序能够对本地Alluxio worker执行短路读取和写入，比从Alluxio worker远程获取数据更高效。

2. 根据工作集大小配置缓存

为 Alluxio 分配足够的空间来缓存工作集至关重要。实际上，我们建议为频繁访问的数据的多个副本提供足够的缓存空间，以减少单个worker 的过载。副本数可通过不同配置参数进行控制。

3. 选择正确的缓存介质

用户可以选择内存和/或固态硬盘作为Alluxio worker的缓存介质。除非数据小到可以放入内存，并且每次查询所需的数据很小，否则宜部署更经济的固态硬盘作为缓存层，从而显著降低集群成本和总拥有成本（TCO）。

4.在 RAPIDS Spark 中进行并发配置

Spark中任务执行的并发性由每个executor的任务数控制。如果使用 Spark RAPIDS，那么将会有一个名为 spark.rapids.sql.concurrentGpuTasks的附加参数, 来进一步控制 GPU 任务并发，从而避免内存不足（OOM）异常。

将该值设置为2到4之间时，一些查询可实现显著性能提升，值设为2时通常性能提升最大，而随着值升高性能效益递减。一般来说Executor中有多个任务时对资源的使用会更优化。例如，有4个任务（包含两个concurrentGpuTask），来平衡对I/O和CPU的使用。比如一个任务可能正在与分布式文件系统通信以读取输入缓存，而另一个任务正在对GPU 上的输入缓存进行解码。在 executor 上配置过多的任务可能会导致过多的 I/O 和主机内存过载。一般来说，executor中的任务数量如果是并发concurrentGpuTasks数量的两倍时，是一个较好的起始配置。

5. 将CPU内存固定到GPU内存

设置 spark.rapids.memory.pinnedPool.size 可显著提高 GPU 和主机内存之间的数据传输性能，因为传输可以通过CPU 异步执行。在理想情况下，分配的固定内存（pinned memory）的输入分区足够容纳Spark能为executor调度的并发任务数量。

6. 限制shuffle分区的数量

分区对于 GPU 处理的增量成本高于CPU处理，因此建议在不耗尽任务内存的情况下尽可能减少分区数量。

有关Alluxio，请查阅Alluxio tuning tips document 获取更多信息。有关RAPIDS Spark，请查阅 RAPIDS Spark tuning guide获取更多信息。

NVIDIA GPU加速的集群使用Alluxio的部署选项

用户可以在任何云基础架构即服务 (IaaS) 产品（例如 Amazon EC2、Azure VM 或 Google Compute Engine）上部署装有NVIDIA GPU 和 Alluxio的Apache Spark集群。其他选项包括任何容器云平台 (CaaS) 产品，例如 Amazon EKS、Azure Kubernetes Service 或 Google Kubernetes Engine。

Apache Spark的RAPIDS加速器和Alluxio都可以与主要云数据托管服务进行集成。以下指南适用于Amazon EMR, Google Dataproc，并包含Alluxio使用说明。

下一步：

想要了解更多有关RAPIDS 如何加速 Apache Spark 的 I/O 的信息，请注册GTC 2021大会演讲——“将RAPIDS加速器用于数据编排”。
想了解如何开始使用Alluxio和RAPIDS Accelerator for Apache Spark，请查阅此文档: https://nvidia.github.io/spark-rapids/docs/get-started/getting-started-alluxio.html
想获取RAPIDS Accelerator for Apache Spark 3.0相关信息和入门指南，请查阅GitHub repo：https://github.com/nvidia/spark-rapids
有关如何在Kubernetes 中使用Alluxio加速基于GPU的深度学习I/O的更多信息，请阅读开发者博客: https://www.alluxio.io/blog/efficient-model-training-in-the-cloud-with-kubernetes-tensorflow-and-alluxio/

近期活动

往期文章回顾

Alluxio 源码完整解析 | 你不知道的开源数据编排系统（上篇）

Alluxio 源码完整解析 | 你不知道的开源数据编排系统（下篇）

云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践（上）

云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践（下）

Alluxio

微信公众号 | Alluxio

新浪微博 | Alluxio2021

推荐阅读

case
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
window
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
case
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
case
使用虚拟机配置服务器

本文详细介绍了如何使用虚拟机配置服务器，包括购买云服务器的操作步骤、系统默认配置以及相关注意事项。通过这些步骤，您可以高效地配置和管理您的服务器。 ... [详细]

蜡笔小新 2024-11-12 12:12:27
rsa
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
case
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
rsa
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
function
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
hash
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
import
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
java
全栈工程师在当今技术领域的角色与价值探析

当前，众多初创企业对全栈工程师的需求日益增长，但市场中却存在大量所谓的“伪全栈工程师”，尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值，澄清对这一角色的误解，并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]

蜡笔小新 2024-10-31 10:28:12
int
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
int
NVIDIA新一代Ampere架构详解：革新与优化并存的显卡技术飞跃

NVIDIA最新推出的Ampere架构标志着显卡技术的一次重大突破，不仅在性能上实现了显著提升，还在能效比方面进行了深度优化。该架构融合了创新设计与技术改进，为用户带来更加流畅的图形处理体验，同时降低了功耗，提升了计算效率。 ... [详细]

蜡笔小新 2024-10-29 14:10:54
runtime
在Windows命令行中利用Conda高效管理虚拟环境的创建与删除

在Windows命令行中，通过Conda工具可以高效地管理和操作虚拟环境。具体步骤包括：1. 列出现有虚拟环境：`conda env list`；2. 创建新虚拟环境：`conda create --name 环境名`；3. 删除虚拟环境：`conda env remove --name 环境名`。这些命令不仅简化了环境管理流程，还提高了开发效率。此外，Conda还支持环境文件导出和导入，方便在不同机器间迁移配置。 ... [详细]

蜡笔小新 2024-10-28 17:27:00
case
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14

I_amkaiman

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章