AnalyticsZooClusterServing自动扩展分布式推理

作者：元菱淑亚禎盈 | 来源：互联网 | 2023-08-11 23:15

随着深度学习项目从实验到生产的发展，越来越多的应用需要对深度学习模型进行大规模和实时的分布式推理服务。虽然已经有一些工具可用于相关任务（如模型优化、服务、集群调度、工作流管理等等），但对于许多深度学习的工程师和科学家来说，开发和部署能够透明地扩展到大型集群的分布式推理工作流仍然是一个具有挑战性的过程。为了应对这一挑战，我们在AnalyticsZoo0.7.0版本中发布了ClusterServing

Analytics Zoo Cluster Serving 自动扩展分布式推理

为了应对这一挑战，我们在 Analytics Zoo 0.7.0 版本中发布了 Cluster Serving 的支持。Analytics Zoo Cluster Serving 是一个轻量级、分布式、实时的模型服务解决方案，支持多种深度学习模型（例如 TensorFlow*、PyTorch*、Caffe*、BigDL 和 OpenVINO™的模型）。它提供了一个简单的 pub/sub API（发布 / 订阅），用户可以轻松地将他们的推理请求发送到输入队列（使用一个简单的 Python API）。然后，Cluster Serving 将使用分布式流框架（如 Apache Spark* Streaming、Apache Flink* 等等）在大型集群中进行实时模型推理和自动扩展规模。Analytics Zoo Cluster Serving 的总体架构如图 1 所示。

Analytics Zoo Cluster Serving 自动扩展分布式推理

图 1Analytics Zoo Cluster Serving 解决方案总体框架

Cluster Serving 的工作原理

你可以按照下面的三个简单步骤使用 Cluster Serving 解决方案（如图 2 所示）。

Analytics Zoo Cluster Serving 自动扩展分布式推理

图 2使用 Analytics Zoo Cluster Serving 解决方案的步骤

在本地节点安装和准备 Cluster Serving 环境
- 将已经完成训练的模型复制到本地节点。当前支持的模型包括 TensorFlow、PyTorch、Caffe、BigDL 和 OpenVINO 的模型。
- 在本地节点上安装 Analytics Zoo（例如使用单个 pip Install 命令即可完成）
- 在本地节点上配置集群服务器，包括模型的文件路径和集群地址（如 Apache Hadoop*YARN 集群、Spark 集群、Kubernetes* 集群等）
请注意这一点，Cluster Serving 解决方案只需要部署在本地节点上，集群（YARN 或者 Kubernetes）并不需要做任何改动。
启动 Cluster Serving 服务

通过在本地节点上运行 startup script 脚本启动 Cluster Serving 服务，例如：


```
start-cluster-serving.sh
```
在后台，Cluster Serving 将自动部署训练好的模型，并以分布式的方式跨集群服务于模型推理请求。您可以使用 TensorBoard* 监测其运行时状态（例如推理吞吐量）。
分布式实时（流式）推理

Cluster Serving 提供了一个简单的 pub/sub API（发布 / 订阅），你可以使用这个简单的 Python API 将推理请求轻松地发送到输入队列（当前使用的是 Redis* Streams），例如：


```
input =InputQueue()
input.enqueue_image(id,image)
```
然后，Cluster Serving 将从 Redis* Streams 读取请求，使用 Spark Streaming 或 Flink 跨集群运行分布式实时推理，并通过 Redis 返回结果。最后，您可以再次使用这个简单的 Python API 获得推理结果，例如：


```
output= OutputQueue()
results= output.dequeue()
```

快速入门示例

你也可以通过运行 Analytics Zoo 0.7.0 版本中提供的快速入门示例来尝试使用 Cluster Serving。快速入门示例包含了使用 Cluster Serving 运行分布式推理流程所需的所有组件，首次使用它的用户能够在几分钟内启动并运行。快速入门示例包含：

一个 Analytics Zoo Cluster Serving 的 Docker Image （已安装所有依赖）
一个示例配置文件
一个训练好的 TensorFlow 模型，以及推理样本数据
一个示例 Python 客户端程序

按照下面的步骤运行快速入门示例。有关详细说明，请参阅 Analytics Zoo Cluster Serving 编程指南。

启动 Analytics Zoo docker



#dockerrun-itd --namecluster-serving --net=host intelanalytics/zoo-cluster-serving:0.7.0 bash

登录 container 并转到我们准备好的工作目录


```
#dockerexec-it cluster-serving bash
#cdcluster-serving
```
在 container 内启动 Cluster Serving


```
#cluster-serving-start
```
运行 Python 客户端程序，开始推理


```
#pythonquick_start.py
```

以下推理结果应该出现在你本地终端显示上：



image: fish1.jpeg,classification-result:class:1'sprob:0.9974158
image: cat1.jpeg,classification-result:class:287'sprob:0.52377725
image: dog1.jpeg,classification-result:class:207'sprob:0.9226527

如果你希望构建和部署定制的 Cluster Serving 流程，可以从修改快速入门示例中提供的示例配置文件和示例 Python 程序开始。下面是这些文件的大致结构，仅供参考。有关更多详细信息，请参阅 Cluster Serving 编程指南。

配置文件（config.yaml）如下所示：



## Analytics Zoo Cluster Serving Config Example

model:
# model path must be set
path:/opt/work/model
data:
# default, localhost:6379
src:
# default, 3,224,224
image_shape:
params:
# default, 4
batch_size:
# default, 1
top_n:
spark:
# default, local[*], change this to spark://, yarn, k8s:// etc if you want to run on cluster
master:local[*]
# default, 4g
driver_memory:
# default, 1g
executor_memory:
# default, 1
num_executors:
# default, 4
executor_cores:
# default, 4
total_executor_cores:

Python 程序（ quick_start.py ）如下所示：



from zoo.serving.clientimportInputQueue, OutputQueue
importos
importcv2
importjson
importtime

if__name__=="__main__":
input_api= InputQueue()

base_path="../../test/zoo/resources/serving_quick_start"

ifnot base_path:
raise EOFError("You have to set your image path")
output_api= OutputQueue()
output_api.dequeue()
path= os.listdir(base_path)
for pinpath:
ifnot p.endswith("jpeg"):
continue
img= cv2.imread(os.path.join(base_path, p))
img= cv2.resize(img, (224,224))
input_api.enqueue_image(p, img)

time.sleep(5)

# get all results and dequeue
result= output_api.dequeue()
for kinresult.keys():
output="image: "+ k +", classification-result:"
tmp_dict= json.loads(result[k])
for class_idxintmp_dict.keys():
output +="class: "+ class_idx +"'s prob: "+ tmp_dict[class_idx]
print(output)

结论

我们很高兴与您分享 Analytics Zoo 0.7.0 版本中提供的这种新的群集模型服务支持，并希望此解决方案有助于简化您的分布式推理工作流并提高您的工作效率。我们很乐意在 GitHub 和邮件列表上听到您的问题和反馈。我们将持续对 Analytics Zoo 进行开发工作，构建统一数据分析和人工智能平台，敬请期待更多关于 Analytics Zoo 的信息。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持我们

推荐阅读

stream
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
java
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
string
Java高并发与多线程（二）：线程的实现方式详解

本文将深入探讨Java中线程的三种主要实现方式，包括继承Thread类、实现Runnable接口和实现Callable接口，并分析它们之间的异同及其应用场景。 ... [详细]

蜡笔小新 2024-11-12 14:31:23
stream
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
java
深入解析浏览器内核与版本的发展历程

浏览器作为我们日常不可或缺的软件工具，其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程，帮助读者更好地理解这一关键技术组件，揭示其内部运作的奥秘。 ... [详细]

蜡笔小新 2024-11-11 13:34:37
install
Python错误重试让多少开发者头疼？高效解决方案出炉

### 优化后的摘要在处理 Python 开发中的错误重试问题时，许多开发者常常感到困扰。为了应对这一挑战，`tenacity` 库提供了一种高效的解决方案。首先，通过 `pip install tenacity` 安装该库。使用时，可以通过简单的规则配置重试策略。例如，可以设置多个重试条件，使用 `|`（或）和 `&`（与）操作符组合不同的参数，从而实现灵活的错误重试机制。此外，`tenacity` 还支持自定义等待时间、重试次数和异常处理，为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 10:33:20
install
B站服务器故障影响豆瓣评分？别担心，阿里巴巴架构师分享预防策略与技术方案

13日晚上，在视频观看高峰时段，B站出现了服务器故障，引发网友在各大平台上的广泛吐槽。这一事件导致了连锁反应，大量用户纷纷涌入A站、豆瓣和晋江等平台，给这些网站带来了突如其来的流量压力。为了防止类似问题的发生，阿里巴巴架构师分享了一系列预防策略和技术方案，包括负载均衡、弹性伸缩和容灾备份等措施，以确保系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-10 15:59:22
uml
深入解析Android 4.4中的Fence机制及其应用

在Android 4.4中，Fence机制是处理缓冲区交换和同步问题的关键技术。该机制广泛应用于生产者-消费者模式中，确保了不同组件之间高效、安全的数据传输。通过深入解析Fence机制的工作原理和应用场景，本文探讨了其在系统性能优化和资源管理中的重要作用。 ... [详细]

蜡笔小新 2024-11-09 19:30:27
install
基于 Bottle 框架构建的幽默应用 —— Python 实践

基于 Bottle 框架构建的幽默应用 —— Python 实践 ... [详细]

蜡笔小新 2024-11-05 10:10:29
install
在Windows环境下使用pip离线安装PyTorch GPU版的详细指南（不依赖Anaconda）

在Windows环境下离线安装PyTorch GPU版时，首先需确认系统配置，例如本文作者使用的是Win8、CUDA 8.0和Python 3.6.5。用户应根据自身Python和CUDA版本，在PyTorch官网查找并下载相应的.whl文件。此外，建议检查系统环境变量设置，确保CUDA路径正确配置，以避免安装过程中可能出现的兼容性问题。 ... [详细]

蜡笔小新 2024-11-03 12:55:35
install
PyTorch 使用问题：解决导入 torch 后 torch.cuda.is_available() 返回 False 的方法

在配置 PyTorch 时，遇到 `torch.cuda.is_available()` 返回 `False` 的问题。本文总结了多种解决方案，并分享了个人在 PyCharm、Python 和 Anaconda3 环境下成功配置 CUDA 的经验，以帮助读者避免常见错误并顺利使用 GPU 加速。 ... [详细]

蜡笔小新 2024-11-02 10:24:45
install
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
python
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
byte
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30

元菱淑亚禎盈

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章