Kubernetes集群里的机器学习，AmazonSageMakerOperator这个大管家你可必须认识一下

作者：爱你真好958_358 | 来源：互联网 | 2023-07-30 19:45

机器学习不仅仅关乎模型。ML工作流包括数据寻源和准备数据、构建ML模型、训练和评估模型、将模型部署到生产环境以及生产后持续监控。AmazonSageMaker可帮助用户更快地构建、

机器学习不仅仅关乎模型。ML工作流包括数据寻源和准备数据、构建ML模型、训练和评估模型、将模型部署到生产环境以及生产后持续监控。Amazon SageMaker可帮助用户更快地构建、训练、部署和维护模型。

但是，与构建模型相关的工作通常是规模更大的工作流的一部分，此工作流跨越了多个支持全局应用程序的工程团队和服务。Kubernetes用户（包括EKS客户）通过编写配置文件来部署工作负载，Kubernetes将这些配置文件与Kubernetes集群中的可用计算资源相匹配。虽然Kubernetes为用户提供了控制权和可移植性，但在Kubernetes集群上运行ML工作负载却会带来独特挑战。例如，底层基础设施需要额外的管理：针对利用率、成本和性能进行优化、符合适用的安全和法规要求，以及确保高可用性和可靠性等等。这些无差别的繁重工作占用了宝贵的时间和资源，延缓了将新的ML应用投入市场的速度。

如何控制编排和工作流，同时又免于管理集群中的底层ML基础设施及服务？

Amazon SageMaker Operator可以帮助数据科学家以及开发人员利用Kubernetes接口来创建和管理SageMaker任务，如机器学习的模型训练、超参优化、批量转换以及实时推理等。

如图所示，SageMaker Operator可以让开发与运维人员通过Kubectl命令行或者Kubernetes API接口调用的方式来管理和使用SageMaker服务，它就像翻译器一样，在Kubernetes平台与AWS SageMaker服务之间搭建了一座桥梁，让那些已经很很熟悉Kubernetes的开发、运维人员在无需投入过多精力的情况下，即可快速地使用SageMaker服务。

应用场景

SageMaker Operator可以让那些已经很了解Kubernetes平台的开发人员以非常熟悉和友好的方式来使用SageMaker服务，它非常适用于以下一些场景。

1、项目团队已经非常熟悉Kubernetes平台的接口和标准，由于项目需求，希望引进机器学习部分。由于人员数量有限，团队不希望再去单独维护一套机器学习平台，而是在充分利用已有的能力的基础上，适当引进第三方的工具和服务，快速地进行业务创新，降低学习和使用的成本，大幅度提升效率。

2、项目团队已在Kubernetes平台的基础上很好的实现了DevOps，很多业务模块都已经做到了持续集成与持续发布。机器学习部分只是整个业务系统中的一个模块，团队希望能够能将机器学习模块与其它业务模块统一进行工程化的管理，最终实现业务流程的全自动化。

技术原理

与其它第三方应用的Kubernetes Operator实现机制一样，SageMaker Operator由Kubernetes CRD和Controller两部分组成。如图所示，在安装好SageMaker Operator之后，SageMaker Operator会向Kubernetes平台新注册一些与SageMaker服务相关CRD，同时以Pod的方式在Kubernetes Worker Node上运行SageMaker Operator Controller。当开发人员需要创建机器学习的任务时，首先需要在yaml文件中定义与CRD资源相关的关键配置参数，然后通过kubectl提交命令创建CRD资源，在CRD资源资源成功创建后，SageMaker Controller可以从Kubernetes API Server监听到与该CRD相关的信息，之后解析参数并调用SageMaker服务，完成机器学习任务的创建。

Operator是Kubernetes中一个重要概念，它可以让开发人员在Kubernetes的基础上进行高级的抽象和封装，从而可以更加容易地安装和管理复杂的应用。除了SageMaker Operator，很多公司和开源机构都会按照Kubernetes的标准把封装自己的Operator。Kubernetes Operator概念相对抽象，技术实现细节也比较复杂，若想对它更深入的了解，我们首先需要理解Kubernetes资源创建的机制和流程，同时也需要理解Kubernetes CRD和Controller等一些重要的概念，本文不会就Kubernetes Operator的技术细节做过多的展开，关于更多有关Kubernetes Operator的介绍，请参考以下链接：

Kubernetes CRD

Kubernetes Controller

Kubernetes Operator

实验演示

下文我们将演示一个具体的例子，从而更好地说明如何如何利用AWS SageMaker Operator来实现机器学习任务的创建和管理。在该方案中，我们会用到以下服务：

AWS S3：AWS对象存储服务，用于存放训练数据集以及机器学习模型。

AWS EKS：AWS Kubernetes托管服务，用于运行SageMaker Operator以及其它与Kubernetes相关的应用。

AWS SageMaker：AWS机器学习托管服务，用于实现数据处理、模型训练、模型优化以及模型部署等机器学习任务的自动化创建和管理。Operator会自动解析参数并调用SageMaker服务完成机器学习任务的创建。

AWS IAM：AWS安全管理服务，用于控制SageMaker Operator以及SageMaker对AWS资源的访问权限。

AWS CloudWatch：AWS日志管理服务，用于记录SageMaker机器学习任务的日志同时将日志以事实的方式推送至AWS EKS。

实验内容

搭建EKS集群，配置IAM权限，安装SageMaker Operator。

通过kubectl命令创建SageMaker机器学习训练任务，提交任务后可以在SageMaker界面上看到机器训练任务，任务结束后确认模型会自动上传至S3。

通过kubectl命令创建SageMaker机器学习部署的任务，提交任务后可以在SageMaker界面上看到机器学习部署任务，SageMaker会自动创建虚拟机并加载模型。

实验步骤

1、EKS集群搭建

EKS是AWS的Kubernetes托管集群，我们可以通过图形界面或者命令行的方式实现集群的创建。在本实验中，我们在ap-southeast-1区域部署Kubernetes集群，该集群会包含一个Worker Node Group，该Node Group内有三个c5.xlarge的计算实例。在默认情况下，节点会采用高可用的方式均匀地部署在该区域的多个可用区内，如果有定制化需求，我们也可以通过指定命令行参数或者编写配置文件来指定可用区。

1.1 运行命令，创建集群。

eksctl create cluster --region --name= --nodes-min=3 --nodes-max=5 --node-type=c5.xlarge --ssh-access —ssh-public-key

1.2 运行命令，查看Kubernetes节点的工作状态。

kubectl get node

2、创建OpenID Connect Provider

OpenID Connect Provider可以将Kubernetes内的Service Account与AWS IAM的角色进行关联。在上文中我们提到过，SageMaker Operator Controller会以Pod的方式运行在EKS节点上，该Pod在监听到资源的创建信息后会调用SageMaker服务，而成功调用SageMaker的前提是该Pod要具备相应的权限。我们知道Kubernetes内Pod的权限分配一般是要通过Service Account传入的，所以OpenID Connect Provider的作用便是将集群外的IAM角色与集群内的Service Account进行关联。

2.1 运行命令获取OIDC ID。

请将${CLUSTERNAME}替换成实际的EKS集群名称，将${AWSREGION}替换成实际的Region。

aws eks describe-cluster --name ${CLUSTER_NAME} --region ${AWS_REGION} \
--query cluster.identity.oidc.issuer --output text

命令运行成功或会返回如下类似的结果：

https://oidc.eks.${AWS_REGION}.amazonaws.com/id/D48675832CA65BD10A532F597OIDCID

2.2 创建名为trust.json的文件。

文件模板如下所示。请将替换成为上一步获取的ID，将替换成当前账号的ID，将替换成EKS的名称。

{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Principal": {
"Federated": "arn:aws:iam:::oidc-provider/oidc.eks..amazonaws.com/id/"
},
"Action": "sts:AssumeRoleWithWebIdentity",
"Condition": {
"StringEquals": {
"oidc.eks..amazonaws.com/id/:aud": "sts.amazonaws.com",
"oidc.eks..amazonaws.com/id/:sub": "system:serviceaccount:sagemaker-k8s-operator-system:sagemaker-k8s-operator-default"
}
}
}
]
}

使用上一步创建成功的trust.json文件，并运行下面命令创建IAM角色，将替换成自己需要的名称。

aws iam create-role --role-name --assume-role-policy-document file://trust.json --output=text

命令运行成功后会返回如图所示的结果：

2.3 运行下列命令，将SageMaker FullAccess的权限赋予上一步所创建的角色。

aws iam attach-role-policy --role-name --policy-arn arn:aws:iam::aws:policy/AmazonSageMakerFullAccess

在完成角色的创建和权限的配置后，请记录角色的ARN，在后面创建SageMaker Operator时，我们需要为SageMaker Operator配置该角色，从而确保SageMaker Operator Controller具备操作SageMaker的权限。

3、安装SageMaker Operator

SageMaker Operator的安装方式很灵活，我们可以直接通过yaml文件进行部署或者通过Helm的方式进行安装部署，本次实验中我们通过yaml的方式进行部署。在上文提到过，SageMaker Operator由CRD和Controller两部分组成，其中Controller会以Pod的形式运行在EKS Worker Node上。

3.1 运行命令下载用于安装SageMaker Operator的yaml文件。

wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-**for**-k8s/master/release/rolebased/installer.yaml

3.2 下载完yaml文件后，进入文件内。

找到eks.amazonaws.com/role-arn参数项，将该参数对应的值更新为2.3步所创建角色的ARN。

3.3 运行下列命令安装SageMaker Operator

kubectl apply -f installer.yaml

上文曾提到，SageMaker Operator由CRD与Controller两部分组成，当SageMaker Operator安装成功后，SageMaker Operator会向Kubernetes集群内注册新的CRD，同时以Pod的形式在Kubernetes Worker Node上运行SageMaker Operator Controller。

3.4 运行下列命令查看新创建的CRD。

kubectl get crd | grep sagemaker

3.5 运行下列命令查看新创建的SageMaker Operator Controller。

kubectl -n sagemaker-k8s-operator-system get pods

4 安装SageMaker Operator日志插件

SageMaker日志插件是SageMaker Operator中的一个可选项，SageMaker的任务在运行过程中会将日志推送至CloudWatch的日志组中，而SageMaker Operator日志插件则可实时地将CloudWatch日志收集到Kubernetes集群上，从而让开发人员通过kubectl命令查看SageMaker任务的日志。SageMaker Operator日志插件的安装是可选项，若安装则可以方便用户对日志进行管理，不安装也不会影响到任务自身的创建。

4.1 运行命令，安装SageMaker日志插件

export os="linux"

wget https://amazon-sagemaker-operator-for-k8s-us-east-1.s3.amazonaws.com/kubectl-smlogs-plugin/v1/${os}.amd64.tar.gz
tar xvzf ${os}.amd64.tar.gz

# Move binaries to a directory in your homedir.
mkdir ~/sagemaker-k8s-bin
cp ./kubectl-smlogs.${os}.amd64/kubectl-smlogs ~/sagemaker-k8s-bin/.

# This line will add the binaries to your PATH in your .bashrc.

echo 'export PATH=$PATH:~/sagemaker-k8s-bin' >> ~/.bashrc

# Source your .bashrc to update environment variables:
source ~/.bashrc

4.2 运行下列命令验证插件是否安装成功。

kubectl smlogs

5、创建机器学习训练任务

接下来，我们将创建一个SageMaker机器学习模型训练的任务，这里我们以SageMaker内置算法xgboost为例，对MINIST数据集进行模型的训练和部署。

5.1 运行命令，生成数据集并将数据集上传至S3存储桶。

请将替换成自己的S3存储桶名称。

wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/scripts/upload_xgboost_mnist_dataset/upload_xgboost_mnist_dataset \
chmod +x upload_xgboost_mnist_dataset \
./upload_xgboost_mnist_dataset --s3-bucket --s3-prefix xgboost-mnist`

查看S3存储桶，可以发现训练、测试和验证数据集都已成功上传至S3存储桶上。

5.2 运行命令创建SageMaker角色。

在创建SageMaker任务前，需要为SageMaker创建好角色，从而确保SageMaker可以顺利运行相关的任务。

export assume_role_policy_document='{
"Version": "2012-10-17",
"Statement": [{
"Effect": "Allow",
"Principal": {
"Service": "sagemaker.amazonaws.com"
},
"Action": "sts:AssumeRole"
}]
}'
aws iam create-role --role-name --assume-role-policy-document file://<(echo "$assume_role_policy_document")
aws iam attach-role-policy --role-name --policy-arn arn:aws:iam::aws:policy/AmazonSageMakerFullAccess

5.3 准备机器学习训练任务yaml文件。

在该文件中，需要配置与SageMaker训练任务相关的重要参数。关于机器学习训练任务yaml文件的模板请参考如下，请将变量部分替换成实际的参数，关键参数解释请参考模板中的备注信息。

apiVersion: sagemaker.aws.amazon.com/v1
kind: TrainingJob // CRD类型
metadata:
name: xgboost-mnist
spec:
roleArn: // 上一步创建的SageMaker role
region: // EKS集群所在的region
algorithmSpecification:
trainingImage: // SageMaker XGboost镜像的存放位置，请参考SageMaker官方文档查看具体的镜像位置。
trainingInputMode: File
outputDataConfig:
s3OutputPath: // 测试数据集存放位置
inputDataConfig:
- channelName: train
dataSource:
s3DataSource:
s3DataType: S3Prefix
s3Uri: // 训练数据集存放位置
s3DataDistributionType: FullyReplicated
contentType: text/csv
compressionType: None
- channelName: validation
dataSource:
s3DataSource:
s3DataType: S3Prefix
s3Uri: < //验证数据集存放位置
s3DataDistributionType: FullyReplicated
contentType: text/csv
compressionType: None
resourceConfig:
instanceCount: 1 // SageMaker实例数量
instanceType: ml.m4.xlarge //SageMaker实例类型
volumeSizeInGB: 5 // SageMaker 根卷大小
hyperParameters: // 超参设置，不同的算法会有不同的参数。
- name: max_depth
value: "5"
- name: eta
value: "0.2"
- name: gamma
value: "4"
- name: min_child_weight
value: "6"
- name: silent
value: "0"
- name: objective
value: multi:softmax
- name: num_class
value: "10"
- name: num_round
value: "10"
stoppingCondition:
maxRuntimeInSeconds: 86400

5.4 运行命令，创建SageMaker训练任务。

kubectl apply -f train.yaml`

5.5 运行命令，查看SageMaker训练任务状态。

$ kubectl describe trainingjob xgboost-mnist
$ kubectl get trainingjob xgboost-mnist`

5.6 进入AWS控制台，查看AWS SageMaker训练任务状态。

5.7 任务训练结束后，模型会被自动存放至S3。

进入S3控制台，可以查看到模型以及成功上传。

6、模型部署

模型训练结束后，我们将创建模型部署任务，SageMaker Operator会自动调用SageMaker服务完成模型的部署。

6.1 创建模型部署yaml文件。

在该文件中，我们需要配置与SageMaker模型部署任务相关的重要参数。关于模型部署任务的yaml文件的模板请参考如下，请将变量部分替换成实际的参数，关键参数解释请参考模板中的备注信息。

apiVersion: sagemaker.aws.amazon.com/v1
kind: HostingDeployment //CRD类型
metadata:
name: hosting-deployment
spec:
region: // EKS集群所在区域
productionVariants:
- variantName: AllTraffic
modelName: xgboost-model
initialInstanceCount: 1 // 部署实例类型数量
instanceType: ml.r5.large //部署实例类型
initialVariantWeight: 1
models:
- name: xgboost-model
executionRoleArn: // 上一步创建的SageMaker role
containers:
- containerHostname: xgboost
modelDataUrl: //模型存放地址
image: // SageMaker XGboost Docker
Image地址，请参考SageMaker官方文档查看镜像具体存放位置。

6.2 运行命令查看模型部署任务状态

kubectl get hostingdeployments

6.3 进入AWS控制台，查看SageMaker模型部署任务。

在上面实验中，我们举了模型训练和部署的例子，除了这两种任务，SageMaker Operator还支持参数优化、批量转换以及模型部署配置等其它任务，我们可以根据项目中的实际需求灵活选择相对应的任务。

总结

利用SageMaker Operator，项目团队可以使用所熟悉的Kubernetes命令以及接口管理复杂机器学习任务与流程，无需在已有的基础设施和平台上做出改动便可以快速地启动与机器学习相关的项目，从而极大程度地提升效率、降低成本。

在真实项目中，机器学习部分往往只是整个业务系统的一个模块，因此在设计方案时也需要系统性的考虑，除了机器学习流程本身，还需要考虑CI/CD、监控运维、安全控制、服务集成等多方面的因素。AWS可以做到服务之间的高度集成，在实际生产中，我们完全可以在上面实验案例的基础上进一步扩展，集成新的服务，从而构建一个端到端的解决方案。

推荐阅读

web
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
post
触发此操作以刷新我点击更新的行中的特定列

在数据表中，我需要触发一个操作来刷新特定列的数据。例如，对于以下表格：| ID | Name | IsDeleted ||----|-------|-----------|| 1 | test | True || 2 | test2 | False |我希望在点击“更新”按钮时，能够仅刷新选定行的“IsDeleted”列。这将有助于确保数据的实时性和准确性。 ... [详细]

蜡笔小新 2024-11-03 16:21:19
web
技术日志：Ansible的安装及模块管理详解

技术日志：Ansible的安装及模块管理详解 ... [详细]

蜡笔小新 2024-11-03 15:01:47
web
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17
post
PHP微信支付退款功能实现及订单创建类代码（附带调用示例）

【实例简介】本文详细介绍了如何在PHP中实现微信支付的退款功能，并提供了订单创建类的完整代码及调用示例。在配置过程中，需确保正确设置相关参数，特别是证书路径应根据项目实际情况进行调整。为了保证系统的安全性，存放证书的目录需要设置为可读权限。值得注意的是，普通支付操作无需证书，但在执行退款操作时必须提供证书。此外，本文还对常见的错误处理和调试技巧进行了说明，帮助开发者快速定位和解决问题。 ... [详细]

蜡笔小新 2024-11-11 13:17:39
filter
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
java
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
jsp
虚拟机网络设置与数据库远程连接优化指南

本文针对个人计算机上虚拟机网络配置与数据库远程连接的问题，提供了一套详细的优化指南。在探讨远程数据库访问前，需确保网络配置正确，特别是桥接模式的设置。通过合理的网络配置，可以有效解决因虚拟机或网络问题导致的连接失败，提升远程访问的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-04 11:43:08
filter
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
web
全新发布的自我修复与自我更新的Linux版本，专为云计算环境设计！

全新发布的自我修复与自我更新的Linux版本，专为云计算环境设计！ ... [详细]

蜡笔小新 2024-10-30 10:53:23
function
AWS Lambda NodeJS导入返回空模块，但仅在AWS中

已更新尝试调用我的Lambda函数时出现以下错误{"errorType":"TypeErr ... [详细]

蜡笔小新 2024-10-19 18:27:30
input
优秀网页翻译：一个智能旋钮：DIY haptic input knob: BLDC motor + round LCD

一个智能旋钮：DIYhapticinputknob:BLDCmotorroundLCD智能旋钮硬件设计智能旋钮视图演示视频3DCAD建立一个你自己的？基 ... [详细]

蜡笔小新 2024-10-13 17:56:02
java
关于ScrumXPDevOps的学习

最近听了ECUG大会上孙敬云老师的分享感觉受益匪浅，毕竟大学课本上只讲到瀑布模型就没有下文了，工作以后一直贯彻的都是Scrum路线，一直也没有时间好好的去学习整理这部分的知识，直到 ... [详细]

蜡笔小新 2024-10-12 10:31:25
process
开发笔记:Linux 系统安装下安装 mysql5.7（glibc版）

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Linux系统安装下安装mysql5.7（glibc版）相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-10-12 09:07:02
search
当人工智能（AI）撞上供应链

了解供应链简单来说，供应链涉及一系列旨在向最终用户提供产品或服务的步骤。企业组织及其供应商之间始终存在一个网络，来生产特定产品并将其交付给最终用户。该网络包括不同的活动、人员、实体 ... [详细]

蜡笔小新 2024-10-11 18:25:31

爱你真好958_358

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章