第三届ApacheFlink极客挑战赛暨AAIGCUP：ClusterServing概况

作者：CH_Double_C | 来源：互联网 | 2023-09-12 09:53

▼关注「Flink中文社区」，获取更多技术干货▼摘要：第三届ApacheFlink极客挑战赛正在火热进行中，ClusterServing是

▼ 关注「Flink 中文社区」&＃xff0c;获取更多技术干货 ▼

摘要&＃xff1a;第三届 Apache Flink 极客挑战赛正在火热进行中&＃xff0c;Cluster Serving 是 Analytics Zoo/BigDL 的分布式推理解决方案&＃xff0c;可以部署在 Apache Flink 集群上进行分布式运算。本文整理自英特尔机器学习工程师宋佳明在 Flink Forward Asia 2020 分享的议题《Cluster Serving&＃xff1a;Distributed and Automated Model Inference on Big Data Streaming Frameworks》。内容包括&＃xff1a;

Cluster Serving 概况
AI 产品化面临的挑战
可扩展的在线推理服务
使用案例
Flink 社区的一些集成

Tips&＃xff1a;点击「阅读原文」即可回顾第三届极客挑战赛解读视频&＃xff5e;

GitHub 地址

欢迎大家给 Flink 点赞送 star~

一、Cluster Serving 概况

Cluster Serving 是一个集成的深度学习分布式大数据框架的在线推理器&＃xff0c;它的全称是 Analytics Zoo Cluster Serving&＃xff0c;是 Intel 开发的一个开源项目&＃xff0c;Cluster Serving 是其中的一个模块。

二、AI 产品化面临的挑战

下图中展示了关于机器学习和深度学习的性能表现和数据量&＃xff0c;可以看到随着神经网络规模的扩大&＃xff0c;它的模型表现性能越来越好。但是模型性能的上限和数据量是紧密相关的&＃xff0c;也就是说需要很大的数据去支撑深度学习。

下图引用了 Google 一篇论文里的内容&＃xff0c;在一个完整的深度学习的应用里&＃xff0c;除了深度学习相关的代码&＃xff0c;还包括一些其他相关部分&＃xff0c;主要包含配置信息、数据的清理、数据预处理&＃xff0c;还有监控等相关协调的部分。这些组件全部加起来才可以构成一个完整的深度学习的应用。也就是说&＃xff0c;在完成深度学习的代码的同时&＃xff0c;去完成一个完整的深度学习应用仍然面临比较大的挑战。

给出的解决方案是 Integrated Big Data Analytics and AI&＃xff0c;通过一个集成的框架把深度学习应用的相关内容都组合起来。框架能够满足这四个特性&＃xff1a;

易于开发 AI 原型&＃xff1a;端到端的 pipelines 部署 AI 原型&＃xff1b;

部署零代码修改&＃xff1a;开发通常会是在开发机或者笔记本进行&＃xff0c;当把代码部署到分布式环境下&＃xff0c;不需要有任何代码的改动&＃xff1b;

无缝部署&＃xff1a;可以直接无缝部署到集群上面的生产环境&＃xff1b;

自动化过程&＃xff1a;这些部件都能够自动化。

简单介绍一下 Analytic Zoo 架构&＃xff1a;

底层是一些环境&＃xff0c;不管是安装在集群还是笔记本都可以。环境里面预置安装了一些底层的库&＃xff1a;包括深度学习框架&＃xff0c;像 TensorFlow、pytorch/OpenVINO 等&＃xff1b;还包括分布式的分析平台&＃xff0c;像 Spark/Flink/Ray 等框架。这里主要介绍 Flink 大数据的框架。还有一些底层 Python library&＃xff1b;

再往上会有 API 层面的一些工具&＃xff0c;比如 Distributed TensorFlow、PyTorch on Spark&＃xff0c;这些工具通过 API 集成了一个深度学习框架和大数据框架&＃xff0c;通过简单的封装&＃xff0c;能够把深度学习的代码在大数据上面运行起来&＃xff1b;

再之上&＃xff0c;会有 ML workflow 级别的应用&＃xff0c;比如 AutoML 和 Cluster Serving&＃xff1b;

最上层是一些开箱即用的应用级别的模型和算法&＃xff0c;比如像推荐或者时间序列模型&＃xff0c;CV 或者 NLP 应用。

三、可扩展的在线推理服务

这里通过一张 TensorFlow 的图来说明在线推理的大致流程。tf-serving 是 TensorFlow 在线推理的 Serving&＃xff0c;大致流程就是数据输入&＃xff0c;经过数据预处理&＃xff0c;然后到已经训练好的模型&＃xff0c;去做一个推理&＃xff0c;之后再把结果返回回来。这是一条完整的 workflow&＃xff0c;这里称之为 Serving。

下图是一个简单的 web 推理服务的案例图&＃xff0c;右下角是模型文件。系统会把模型文件储存起来&＃xff0c;把相关信息保存到元数据里面&＃xff0c;通过一个模型的管理组件管理元数据&＃xff0c;然后用模型 service Loader 来加载模型。左边是一个 API&＃xff0c;API 可以通过 http 或者 grpc 远程调用。它可以访问到 Model service Manager&＃xff0c;得到正确的模型的对应版本&＃xff0c;然后去完成 service 的过程。

上图和 tf-serving 都是一个单机版的推理服务。在大数据的情况下&＃xff0c;能否把数据并行处理&＃xff0c;把它部署到多节点的集群上&＃xff0c;是目前 intel 实现的一个可扩展性分布式推荐服务架构图。

下图左边使用的是 Redis&＃xff0c;把它作为一个输入和输出的数据管道数据库&＃xff0c;右边为主要部分&＃xff0c;是基于 Flink 实现的一个分布式的推理。Flink 的 source 会通过 Redis 拿到输入数据&＃xff0c;然后通过 Analytics Zoo 里面的一个底层组件去进行推理。当推理结束后&＃xff0c;会通过 data sink 写回到 Redis。

架构的优势&＃xff1a;

简单的部署&＃xff1a;Cluster Serving 已经有官方的 docker 镜像&＃xff0c;可以通过镜像一键部署&＃xff1b;

广泛的模型支持&＃xff1a;支持 TensorFlow、PyTorch、openvino 和 Caffe 等深度学习框架&＃xff0c;可以直接导入模型并且在架构上面运行&＃xff1b;

低延迟&＃xff1a;这是 Flink 的特性&＃xff0c;是一个流处理的处理框架&＃xff1b;

高吞吐和可扩展性&＃xff1a;也是利用 Flink 分布式的特性去进行一个横向扩展。

下图展示了从用户的角度来看整个系统是怎么样运行的&＃xff1a;

同步 API&＃xff1a;上面是一个 http 的用户&＃xff0c;他把数据封装成一个请求发给 http 的 server&＃xff0c;负责去和 Cluster Serving 部署好的机器进行数据通信&＃xff0c;server 会把需要的结果返回给用户。也就是说&＃xff0c;当发送了请求之后&＃xff0c;用户实际上是在等待返回。

异步 API&＃xff1a;下面的两条队列实际上是异步的 API&＃xff0c;通过一个 python 脚本的方式去调用 Cluster Serving。可以在任何时候把数据放入队列&＃xff0c;然后在整个服务运行结束之后把数据存储到数据库里。这样就可以在任何时候再调用另一个 API&＃xff0c;去取得结果。

Cluster Serving 启动的方法&＃xff1a;

环境安装好之后&＃xff0c;一般 docker 是最简单的方式&＃xff0c;安装好之后就可以直接启动&＃xff0c;启动之后就相当于服务端已经准备好。
调用之前所提到的 http 或者 python 的 API&＃xff0c;往服务发送一个数据请求&＃xff0c;完成一个客户端的操作。

按照下面的步骤运行快速入门示例。有关详细说明&＃xff0c;请参阅 Analytics Zoo Cluster Serving 编程指南。

启动 Analytics Zoo docker。
#docker run -itd --name cluster -serving --net&＃61;host intelanalytics/zoo-cluster-serving:0.7.0bash
登录 container 并转到准备好的工作目录。
#docker exec -it cluster-serving bash
#cd cluster-serving
在 container 内启动 Cluster Serving。
#cluster-serving-start

两种类型的 API&＃xff1a;

http 的 API 是一个请求&＃xff0c;数据格式以 json 的 string 的形式包装在请求里面&＃xff0c;这是一个同步的 API。

pop-sub python 是一个异步的 API。数据一般是以 ndarry 或者编码后的字符串。

下图是一个 API 样例&＃xff0c;这是一个 http 的 API&＃xff0c;包含各种各样的数据类型&＃xff0c;目前可以支持普通常数、tensor、sparse tensor、image encoding 等类型。应该是包含了目前在实际使用中遇到的所有数据类型。这些数据类型都包括在一个 json 的 string 里面。可以通过发送一个 curl 命令&＃xff0c;去直接拿到结果。

下图是 python 的 pub-sub 的 API。可以看到大体上支持的数据类型和使用方法&＃xff0c;与 http 的 API 是差不多的&＃xff0c;只是数据的表示有一些区别&＃xff0c;也有两个 API。通过随便生成的 2 个 ndarry&＃xff0c;然后调用了一个 API&＃xff0c;就可以把数据放进 Cluster Serving&＃xff0c;并调用一个 API 去把数据取回来。

四、使用案例

医学影像的推理是一个比较常见的能体现 Cluster Serving 价值的使用案例。含有数量巨大的 x 光胸片&＃xff0c;且医学影像中图片的像素点也很多&＃xff0c;对实时推理要求很高。在普通的单机情况下&＃xff0c;需要做预处理、推理等所有的操作&＃xff0c;耗时一般都是要小时级的&＃xff0c;但是为了达到对实时性的要求&＃xff0c;会通过分布式的框架把耗时缩短到分钟级。

接下来介绍跟天池平台合作的一个垃圾分类的比赛&＃xff0c;左边是训练过程&＃xff0c;通常使用的是 TensorFlow 和 Keras&＃xff0c;或者是经过 Analytics Zoo 封装后的 TensorFlow&＃xff0c;把一个预训练的模型&＃xff0c;进行一个微调 (finetune)。微调之后&＃xff0c;拿到测试数据&＃xff0c;使用 Flink 在分布式的集群上去调用推理接口&＃xff0c;集群的每个节点都部署好了 Analytics Zoo 的模型。实时图片的推理是用分布式的 Cluster Serving 来实现的&＃xff0c;通过横向扩展的方式来提高效率。

下图是跟天池合作的另一个比赛&＃xff0c;这是一个基于流行病学的向量搜索。在比赛里面的模型是一个 autoencode。原始数据经过数据预处理成为了一个词嵌入&＃xff0c;然后经过训练得到 vector&＃xff0c;在推理阶段使用 Cluster Serving 进行推理。autoencode 模型相比之前的图片模型 resnet50 或者 inception&＃xff0c;算是小很多的模型。也就是说&＃xff0c;吞吐量本来就已经很高了&＃xff0c;在本案例里面&＃xff0c;横向扩展的意义并不是明显&＃xff0c;但是这次比赛是 Cluster Serving 在第一次在发布后&＃xff0c;能够完整的作为一个服务在天池比赛中被应用起来。

五、Flink 社区的一些集成

下图中的案例提供了一个把 Cluster Serving 的主要功能&＃xff0c;即分布式推理和多模型的支持&＃xff0c;包装成为了一个在 Flink 的 Table 上面的 UDF。这是一个简单的例子&＃xff0c;可以看到创建了一个 Envirement&＃xff0c;然后数据在 csv 里面&＃xff0c;通过一个简单 SQL 语法的语句&＃xff0c;去做了一个端到端的训练&＃xff0c;然后把结果直接打印出来。SQL 运行之后&＃xff0c;实际上就是可以直接去把那个 csv 里面的原数据去进行一个分布式的推理&＃xff0c;最后输出出来。

最后&＃xff0c;Flink 2.0 有一个新的特性是 StateFun 函数。这张架构图和之前 Cluster Serving 的主要架构图没有很大的区别。唯一的区别在于数据源 (data source)&＃xff0c;现在只用了一个单节点的数据源。而之前版本是一个模型只能去启动一个 Flink job&＃xff0c;一一对应。现在有了 StateFun 函数的新特性&＃xff0c;可以通过一个数据源在拿到数据的时候&＃xff0c;进行一个路由 (routing)&＃xff0c;在路由之后&＃xff0c;就可以用一个 Flink job 管理多个模型的分布式推理。

热点推荐

Flink Forward Asia 2021 正式启动&＃xff01;议题火热征集中&＃xff01;

30 万奖金等你来&＃xff01;第三届 Apache Flink 极客挑战赛暨 AAIG CUP 报名开始

Flink 1.14 新特性预览

更多 Flink 相关技术问题&＃xff0c;可扫码加入社区钉钉交流群&＃xff5e;

戳我&＃xff0c;回顾极客挑战赛解读视频&＃xff01;

推荐阅读

深度学习
精选10款Python框架助力并行与分布式机器学习

随着神经网络模型的不断深化和复杂化，训练这些模型变得愈发具有挑战性，不仅需要处理大量的权重，还必须克服内存限制等问题。本文将介绍10款优秀的Python框架，帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]

蜡笔小新 2024-11-20 19:44:05
stream
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
config
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54
include
【小白学习C++ 教程】二十三、如何安装和使用 C++ 标准库

【小白学习C++ 教程】二十三、如何安装和使用 C++ 标准库 ... [详细]

蜡笔小新 2024-11-19 19:30:06
request
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
range
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
range
在OpenCV 3.1.0中实现SIFT与SURF特征检测

本文介绍如何在OpenCV 3.1.0版本中通过Python 2.7环境使用SIFT和SURF算法进行图像特征点检测。由于这些高级功能在OpenCV 3.0.0及更高版本中被移至额外的contrib模块，因此需要特别处理才能正常使用。 ... [详细]

蜡笔小新 2024-11-20 21:00:18
range
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
nodejs
实践指南：使用Express、Create React App与MongoDB搭建React开发环境

本文详细介绍了如何利用Express、Create React App和MongoDB构建一个高效的React应用开发环境，旨在为开发者提供一套完整的解决方案，包括环境搭建、数据模拟及前后端交互。 ... [详细]

蜡笔小新 2024-11-20 10:05:15
range
机器学习（ML）三之多层感知机

深度学习主要关注多层模型，现在以多层感知机（multilayerperceptron，MLP）为例，介绍多层神经网络的概念。隐藏层多层感知机在单层神经网络的基础上引入了一到多个隐藏 ... [详细]

蜡笔小新 2024-11-19 19:02:28
range
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
request
python包requests 发送http请求，获取响应数据

文章目录python包-requests关于requests包安装和使用pythonrequests请求超时设置工作中遇到的常见问题整理访问https网站，报错cer ... [详细]

蜡笔小新 2024-11-17 09:54:22
jar
RocketMQ 运维监控实践指南

本文详细介绍了如何实现 RocketMQ 的运维监控，包括监控平台的搭建、常用运维命令及其具体用法。适合对 RocketMQ 监控感兴趣的读者参考。 ... [详细]

蜡笔小新 2024-11-16 13:53:02
default
2023年最新指南：如何在PHP中屏蔽警告和错误

本文详细介绍了如何在PHP中屏蔽警告和错误，包括多种方法和最佳实践，帮助开发者提升代码质量和安全性。 ... [详细]

蜡笔小新 2024-11-16 02:00:40
default
吴恩达机器学习+deeplearning课程笔记干货链接分享

分享两个GitHub链接，今天看到的，超赞超赞不能更赞了，答应我一定要去看好吗~~~~不论是笔记还是github中分享的其它资源ÿ ... [详细]

蜡笔小新 2024-11-15 09:24:12

CH_Double_C

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章