开发笔记:创建并运行EMRonEKS集群

作者：手机用户2502929415 | 来源：互联网 | 2023-08-19 14:03

篇首语：本文由编程笔记#小编为大家整理，主要介绍了创建并运行EMRonEKS集群相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了创建并运行 EMR on EKS 集群相关的知识，希望对你有一定的参考价值。

文章目录

- 0. 前置条件
- 1. 安装ekscli
- 2. 安装kubectl
- 3. 创建EKS集群
- 4. 查看EKS集群状态
- 5. 创建Namespace
- 6. 授权访问Namespace
- 7. 创建Job Execution Role
- 8. 创建Role的Trust Relationship
- 9. 在EKS上创建EMR虚拟集群
- 10. 向EMR on EKS提交作业
- 11. 删除与清理
- 12. 常见错误

EMR on EKS的创建工作完全是命令行驱动的&＃xff0c;目前尚无对应的UI界面来完成相关操作。本文将通过命令行演示如何创建并运行一个EMR on EKS集群。创建EMR on EKS的过程可以分为两个阶段&＃xff1a;第一阶段是先创建出一个EKS集群&＃xff0c;第二阶段是在这个EKS集群之上创建EMR的虚拟集群&＃xff0c;以下是具体操作步骤。

注&＃xff1a;在操作过程中&＃xff0c;我们将会陆续得到一些值&＃xff0c;例如EKS集群的名称&＃xff0c;虚拟集群的ID&＃xff0c;这些变量在后续的操作中会再次使用&＃xff0c;为了便于提升文中脚本的可复用性&＃xff0c;我们会单独将这些值抽取出来&＃xff0c;赋给一个变量&＃xff0c;同时用export导出&＃xff0c;便于后续的引用。以下是操作过程中将会生成并被引用到的一些变量&＃xff0c;以及本例我们将采用的值&＃xff1a;

变量名称	本例取值	描述
REGION	us-east-1	当前所处的AWS REGION
ZONES	us-east-1a,us-east-1b,us-east-1c	分配给将要创建的EKS集群的可用区
EKS_CLUSTER_NAME	it-infrastructure	将要创建的EKS集群的名称
DATALAKE_NAMESPACE	datalake	将要在EKS上创建的面向数据系统的Kubenetes命名空间&＃xff0c;将要创建的EMR on EKS虚拟集群会被置于该空间下
VIRTUAL_CLUSTER_NAME	emr-cluster-1	将要创建的EMR on EKS虚拟集群的名字
SSH_PUBLIC_KEY	`<从EC2->Kye Pairs处查找>`	将要创建的EKS集群需要指定公钥
EXECUTION_ROLE_ARN	`<从IAM的Admin Role处查找>`	用于运行EMR on EKS的IAM Role
VIRTUAL_CLUSTER_ID	`<过程中产生>`	将要创建的EMR on EKS虚拟集群的ID

以下是为上述全局变量赋值的命令(VIRTUAL_CLUSTER_ID将在后续操作中产生&＃xff0c;暂不赋值)&＃xff1a;

export REGION&＃61;"us-east-1" export ZONES&＃61;"us-east-1a,us-east-1b,us-east-1c" export EKS_CLUSTER_NAME&＃61;"it-infrastructure" export DATALAKE_NAMESPACE&＃61;"datalake" export VIRTUAL_CLUSTER_NAME&＃61;"emr-cluster-1" export SSH_PUBLIC_KEY&＃61;"" export EXECUTION_ROLE_ARN&＃61;""

0. 前置条件

确保有你有一台Linux主机&＃xff0c;并已安装awscli命令行
确保配置给awscli的access_key属于一个Admin账号

1. 安装ekscli

ekscli是用于操作eks的命令行工具&＃xff0c;我们需要使用到该工具&＃xff0c;须先行安装&＃xff0c;安装命令如下&＃xff1a;

curl --silent --location "https://github.com/weaveworks/eksctl/releases/latest/download/eksctl_$(uname -s)_amd64.tar.gz" | tar xz -C /tmp sudo mv /tmp/eksctl /usr/local/bin

2. 安装kubectl

kubectl是用于管理kubenetes集群的命令行工具&＃xff0c;我们需要使用到该工具&＃xff0c;须先行安装&＃xff0c;安装命令如下&＃xff1a;

curl -o kubectl https://amazon-eks.s3.us-west-2.amazonaws.com/1.20.4/2021-04-12/bin/linux/amd64/kubectl chmod &＃43;x ./kubectl mkdir -p $HOME/bin && cp ./kubectl $HOME/bin/kubectl && export PATH&＃61;$PATH:$HOME/bin echo &＃39;export PATH&＃61;$PATH:$HOME/bin&＃39; >> ~/.bashrc

3. 创建EKS集群

接下来&＃xff0c;我们要在美东1创建名为ABC_IT_INFRASTRUCTURE的EKS集群&＃xff0c;命令如下&＃xff1a;

eksctl create cluster \\ --region $REGION \\ --name $EKS_CLUSTER_NAME \\ --zones $ZONES \\ --node-type m5.xlarge \\ --nodes 5 \\ --with-oidc \\ --ssh-access \\ --ssh-public-key $SSH_PUBLIC_KEY \\ --managed

上述命令行需要注意如下几点&＃xff1a;

$SSH_PUBLIC_KEY为你在AWS上的公钥key的ID&＃xff0c;这个字符串可在EC2控制台->Key Pairs处查找&＃xff0c;name列即是&＃xff1b;
--zones并不是必选项&＃xff0c;如不指定&＃xff0c;会随机选择AZ&＃xff0c;但是有时随机选择的AZ在创建时并没有足够的资源支撑请求创建的EKS集群&＃xff0c;这时就需要显式地指定zone来避开不可用的zone&＃xff1b;
--node-type和--nodes也不是必选项&＃xff0c;如不指定&＃xff0c;集群默认部署在2个m5.large节点上&＃xff0c;对于EMR来说&＃xff0c;这个集群的配置太低了&＃xff0c;所以必须显式配置这两项&＃xff0c;赋予集群更大的资源&＃xff1b;

上述命令行需要执行较长时间&＃xff08;约20分钟左右&＃xff09;&＃xff0c;当最后出现:

EKS cluster "ABC_IT_INFRASTRUCTURE" in "us-east-1" region is ready

表明EKS集群已经建好。需要注意的是&＃xff0c;该命令在执行过程中会通过Cloud Formation创建大量的基础设施&＃xff0c;包括IAM Role&＃xff0c;VPC&＃xff0c;EC2等等&＃xff0c;中途发生错误的可能性较大&＃xff0c;且很多操作是不能自动回滚的&＃xff0c;所以需要打开Cloud Formation的控制台并持续关注&＃xff0c;如发现未清理的Stack&＃xff0c;须手动删除Stack后再重新执行上述命令。

eksctl create cluster还有很多可配置的选项&＃xff0c;可以通过如下命令查看详细说明&＃xff1a;

eksctl create cluster -h

4. 查看EKS集群状态

EKS集群创建完成后&＃xff0c;为确保集群是否健康&＃xff0c;可通过命令行查看一下集群状况&＃xff08;该步骤非必须&＃xff0c;可跳过&＃xff09;。

查看集群各物理节点状况

kubectl get nodes -o wide

查看集群POD的状况

kubectl get pods --all-namespaces -o wide

5. 创建Namespace

为便于对资源进行管理&＃xff0c;我们可以在Kubenetes集群上为数据相关的系统创建单独的namespace&＃xff0c;取名ABC_DATALAKE&＃xff0c;后续创建的EMR虚拟集群将被置于该namespace下&＃xff1a;

kubectl create namespace $DATALAKE_NAMESPACE

6. 授权访问Namespace

默认情况下&＃xff0c;EMR on EKS是无权直接访问和使用EKS上的namespace的&＃xff0c;需要我们创建一个Kubernetes role&＃xff0c;然后将该Role绑定到一个Kubernetes user上&＃xff0c;同时将一个服务角色AWSServiceRoleForAmazonEMRContainers映射到这个user上&＃xff0c;这样才能桥接Kubenetes端和EMR on EKS服务端之间的权限认证&＃xff0c;幸运的是我们不需要手动逐一完成这些操作&＃xff0c;通过一条eksctl命令可以直接实现&＃xff1a;

eksctl create iamidentitymapping \\ --region $REGION \\ --cluster $EKS_CLUSTER_NAME \\ --namespace $DATALAKE_NAMESPACE \\ --service-name "emr-containers"

控制台的输出也会印证上面的论述&＃xff1a;

2021-06-02 12:39:49 [ℹ] created "datalake:Role.rbac.authorization.k8s.io/emr-containers" 2021-06-02 12:39:49 [ℹ] created "datalake:RoleBinding.rbac.authorization.k8s.io/emr-containers" 2021-06-02 12:39:49 [ℹ] adding identity "arn:aws:iam::1234567898765:role/AWSServiceRoleForAmazonEMRContainers" to auth ConfigMap

7. 创建Job Execution Role

运行EMR on EKS需要一个IAM Role&＃xff0c;在这个Role中要配置授权EMR on EKS可以使用的资源有哪些&＃xff0c;例如s3上某些桶&＃xff0c;cloudwatch等服务&＃xff0c;这些被称之为Role Policies&＃xff0c;官方文档给出过一份Role Policies的参考配置&＃xff0c;可参见&＃xff1a;https://docs.aws.amazon.com/emr/latest/EMR-on-EKS-DevelopmentGuide/creating-job-execution-role.html。

为方便起见&＃xff0c;本文将直接使用Admin角色作为job execution role。

8. 创建Role的Trust Relationship

如果通过第7步创建了一个role&＃xff0c;还需要对这个role进行编辑&＃xff0c;添加这个role和EMR服务账号&＃xff08;EMR managed service account&＃xff09;之间的互信。这里所谓的EMR服务账号&＃xff08;EMR managed service account&＃xff09;是在job提交时自动创建的&＃xff0c;所以在配置中在EMR服务账号部分会使用统配符。

不过幸运的是&＃xff0c;我们不需要手动编辑Role的Trust Relationships部分&＃xff0c;我们可以如下命令行自动添加这个Trust Relationship&＃xff1a;

aws emr-containers update-role-trust-policy \\ --cluster-name $EKS_CLUSTER_NAME \\ --namespace $DATALAKE_NAMESPACE \\ --role-name <Admin or the-job-excution-role-name-you-created>

其中&＃xff0c;你需要将替换为Admin或者是在第7步中创建的role的名称。当创建成功之后&＃xff0c;可以在Role的Trust Relationships页面看到生成的类似下面的相关配置&＃xff1a;

{ "Effect": "Allow", "Principal": { "Federated": "arn:aws:iam::1234567898765:oidc-provider/oidc.eks.us-east-1.amazonaws.com/id/1C2DF227CD8E011A693BCF03D7EBD581" }, "Action": "sts:AssumeRoleWithWebIdentity", "Condition": { "StringLike": { "oidc.eks.us-east-1.amazonaws.com/id/1C2DF227CD8E011A693BCF03D7EBD581:sub": "system:serviceaccount:kube-system:emr-containers-sa-*-*-1234567898765-3l0vgne6" } } }

即使我们在第7步选择使用Admin角色作为job execution role&＃xff0c;该步操作依然需要执行&＃xff0c;–role-name取值Admin, 否则在作业执行过程中无权完成创建Log Group以及在s3上存储日志等操作。

9. 在EKS上创建EMR虚拟集群

接下来我们就将创建EMR集群了&＃xff0c;其实更准确的叫法应该是“注册”&＃xff0c;因为这一步执行完成后并不会在EKS上生成一个EMR集群&＃xff0c;这里创建的是一个虚拟的集群&＃xff0c;集群要在第一次提交作业时才会创建。创建集群的命令如下&＃xff1a;

# create virtual cluster description file tee $VIRTUAL_CLUSTER_NAME.json <<EOF { "name": "$VIRTUAL_CLUSTER_NAME", "containerProvider": { "type": "EKS", "id": "$EKS_CLUSTER_NAME", "info": { "eksInfo": { "namespace": "$DATALAKE_NAMESPACE" } } } } EOF # create virtual cluster aws emr-containers create-virtual-cluster --cli-input-json file://./$VIRTUAL_CLUSTER_NAME.json

上述命令先创建一个集群描述文件$VIRTUAL_CLUSTER_NAME.json, 这个文件描述了EMR集群的名称以及要建在哪个EKS集群的哪个Namespace上&＃xff0c;然后通过aws emr-containers create-virtual-cluster创建出这个文件描述的虚拟集群。

上述命令如果执行成功&＃xff0c;会在控制台输出一份描述集群的json数据&＃xff0c;其中的id字段较为重要&＃xff0c;后续提交作业时都会使用到这个id&＃xff0c;如果没有保存下来&＃xff0c;也可以通过如下命令随时查询&＃xff1a;

aws emr-containers list-virtual-clusters

将获得的id付给全局变量VIRTUAL_CLUSTER_ID&＃xff0c;后续操作将会多次引用到该ID&＃xff1a;

export VIRTUAL_CLUSTER_ID&＃61;&＃39;&＃39;

10. 向EMR on EKS提交作业

虚拟集群建好之后&＃xff0c;就可以提交大数据作业了&＃xff0c;EMR on EKS是基于容器的&＃xff0c;不同于EMR通过shell登录进行操作&＃xff08;可以但不方便&＃xff09;&＃xff0c;常规的使用方式是将其视为一个计算资源的黑盒&＃xff0c;向其提交作业即可。以下是一条向EMR on EKS提交作业的示例命令&＃xff0c;它执行的是spark自带的example程序pi.py

aws emr-containers start-job-run \\ --virtual-cluster-id $VIRTUAL_CLUSTER_ID \\ --name sample-job-name \\ --execution-role-arn $EXECUTION_ROLE_ARN \\ --release-label emr-6.2.0-latest \\ --job-driver &＃39;{"sparkSubmitJobDriver": {"entryPoint": "local:///usr/lib/spark/examples/src/main/python/pi.py","sparkSubmitParameters": "--conf spark.executor.instances&＃61;2 --conf spark.executor.memory&＃61;2G --conf spark.executor.cores&＃61;2 --conf spark.driver.cores&＃61;1"}}&＃39; \\ --configuration-overrides &＃39;{"monitoringConfiguration": {"cloudWatchMonitoringConfiguration": {"logGroupName": "/emr-on-eks/$VIRTUAL_CLUSTER_NAME", "logStreamNamePrefix": "pi"}}}&＃39;

start-job-run这条命令最需要关注的是--job-driver这个参数&＃xff0c;所有关于作业本身的相关信息都在这个参数里了。基于文档可知&＃xff0c;目前的EMR on EKS仅支持sparkSubmitJobDriver一种形式的作业提交&＃xff0c;即只能是以spark-submit可接受的形式提交作业&＃xff0c;也就是通过jar包&＃43;class或pyspark脚本的形式提交作业。jar包及其依赖jar文件可部署在s3上。

一种更加优雅的作业提交方式是提供一份job run的json描述文件&＃xff0c;把所有集群、作业和作业配置相关的信息集中配置在这份json文件中&＃xff0c;然后通过命令执行&＃xff0c;如下所示&＃xff1a;

# create job description file tee start-job-run-request.json <<EOF { "name": "sample-job-name", "virtualClusterId": "$VIRTUAL_CLUSTER_ID", "executionRoleArn": "$EXECUTION_ROLE_ARN", "releaseLabel": "emr-6.2.0-latest", "jobDriver": { "sparkSubmitJobDriver": { "entryPoint": "local:///usr/lib/spark/examples/src/main/python/pi.py", "sparkSubmitParameters": "--conf spark.executor.instances&＃61;2 --conf spark.executor.memory&＃61;2G --conf spark.executor.cores&＃61;2 --conf spark.driver.cores&＃61;1" } }, "configurationOverrides": { "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.driver.memory":"2G" } } ], "monitoringConfiguration": { "persistentAppUI": "ENABLED", "cloudWatchMonitoringConfiguration": { "logGroupName": "/emr-on-eks/$VIRTUAL_CLUSTER_NAME", "logStreamNamePrefix": "pi" }, "s3MonitoringConfiguration": { "logUri": "s3://glc-emr-on-eks-logs/" } } } } EOF # start job aws emr-containers start-job-run --cli-input-json file://./start-job-run-request.json

关于json文件的编写&＃xff0c;可以参考&＃xff1a;https://docs.aws.amazon.com/emr/latest/EMR-on-EKS-DevelopmentGuide/emr-eks-jobs-CLI.html#emr-eks-jobs-submit

最后是关于EMR集群的配置&＃xff0c;与纯EMR集群类似&＃xff0c;集群配置也是通过json文件提交的&＃xff0c;写到applicationConfiguration里面&＃xff0c;例如上述配置中的"classification": "spark-defaults"部分。由于EMR on EKS目前仅支持Spark&＃xff0c;所以也只有如下几类classification可配置

Classifications	Descriptions
core-site	Change values in Hadoop’s core-site.xml file.
emrfs-site	Change EMRFS settings.
spark-metrics	Change values in Spark’s metrics.properties file.
spark-defaults	Change values in Spark’s spark-defaults.conf file.
spark-env	Change values in the Spark environment.
spark-hive-site	Change values in Spark’s hive-site.xml file.
spark-log4j	Change values in Spark’s log4j.properties file.

11. 删除与清理

删除与清理集群的顺序应与创建过程相反&＃xff0c;先删除ERM虚拟集群&＃xff0c;然后再删除EKS集群&＃xff1a;

# 1. list all jobs aws emr-containers list-job-runs --virtual-cluster-id $VIRTUAL_CLUSTER_ID # 2. cancel running jobs aws emr-containers cancel-job-run --id <job-run-id> --virtual-cluster-id $VIRTUAL_CLUSTER_ID # 3. delete virtual cluster aws emr-containers delete-virtual-cluster --id $VIRTUAL_CLUSTER_ID # 4. delete eks cluster eksctl delete cluster --region $REGION --name $EKS_CLUSTER_NAME

注意&＃xff1a;第4步在删除EKS集群时&＃xff0c;须找到对应Cloud Formation模板里的一项资源NodeInstanceRole&＃xff0c;手动dettach 该Role上的所有policies&＃xff0c;命令才能执行成功。

12. 常见错误

通过eksctl create cluster创建的eks集群默认是两个m5.large节点&＃xff0c;这个配置很难支撑一个EMR集群&＃xff0c;所以务必要指定一下节点数量和节点类型&＃xff1a;
如果在第3步创建EKS集群遇到类似如下的错误&＃xff1a;

AWS::EKS::Cluster/ControlPlane: CREATE_FAILED – "Cannot create cluster &＃39;my-bigdata-infra-cluster&＃39; because us-east-1e, the targeted availability zone, does not currently have sufficient capacity to support the cluster. Retry and choose from these availability zones: us-east-1a, us-east-1b, us-east-1c, us-east-1d, us-east-1f (Service: AmazonEKS; Status Code: 400; Error Code: UnsupportedAvailabilityZoneException; Request ID: 61028748-0cc1-4100-9152-aab79a475fe6; Proxy: null)"

说明自动分配或指定的某一个AZ目前不可用&＃xff0c;可在--zones参数列表中取其他AZ替换。

关于作者&＃xff1a;架构师&＃xff0c;15年IT系统开发和架构经验&＃xff0c;对大数据、企业级应用架构、SaaS、分布式存储和领域驱动设计有丰富的实践经验&＃xff0c;热衷函数式编程。对Hadoop/Spark 生态系统有深入和广泛的了解&＃xff0c;参与过Hadoop商业发行版的开发&＃xff0c;曾带领团队建设过数个完备的企业数据平台&＃xff0c;个人技术博客&＃xff1a;https://laurence.blog.csdn.net/ 作者著有《大数据平台架构与原型实现&＃xff1a;数据中台建设实战》一书&＃xff0c;该书已在京东和当当上线。
在这里插入图片描述

推荐阅读

io
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
search
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
python
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
io
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
search
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
io
React 表单验证：构建无第三方库的表单处理机制

本文将深入探讨如何在不依赖第三方库的情况下，使用 React 处理表单输入和验证。我们将介绍一种高效且灵活的方法，涵盖表单提交、输入验证及错误处理等关键功能。 ... [详细]

蜡笔小新 2024-12-24 15:48:48
io
如何在 Angular 6 HttpClient 中获取响应头

本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头，包括代码示例和常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-22 15:33:55
install
嵌入式开发环境搭建与文件传输指南

本文详细介绍了如何为嵌入式应用开发搭建必要的软硬件环境，并提供了通过串口和网线两种方式将文件传输到开发板的具体步骤。适合Linux开发初学者参考。 ... [详细]

蜡笔小新 2024-12-22 13:38:48
io
在Fedora 31上部署PostgreSQL 12

本文详细介绍如何在Fedora 31操作系统上安装和配置PostgreSQL 12数据库。包括环境准备、安装步骤、配置优化以及安全设置，确保数据库能够稳定运行并提供高效的性能。 ... [详细]

蜡笔小新 2024-12-21 15:37:13
io
前端开发：使用JavaScript获取最近7天、半年和一年的日期格式化方法

本文介绍了如何在React和React Native项目中使用JavaScript进行日期格式化，提供了获取近7天、近半年及近一年日期的具体实现方法。 ... [详细]

蜡笔小新 2024-12-21 12:00:48
io
主调|大侠_重温C++

主调|大侠_重温C++ ... [详细]

蜡笔小新 2024-12-20 20:43:56
io
思科路由器虚拟专用网技术概览

本文详细介绍了虚拟专用网（Virtual Private Network, VPN）的概念及其通过公共网络（如互联网）构建临时且安全连接的技术特点。文章探讨了不同类型的隧道协议，包括第二层和第三层隧道协议，并提供了针对IPSec、GRE以及MPLS VPN的具体配置指导。 ... [详细]

蜡笔小新 2024-12-20 12:29:06
io
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
io
Deepin系统下MySQL 5.7安装指南

本文详细记录了在基于Debian的Deepin 20操作系统上安装MySQL 5.7的具体步骤，包括软件包的选择、依赖项的处理及远程访问权限的配置。 ... [详细]

蜡笔小新 2024-12-28 10:48:41
io
GWT PopupPanel onKeyDownPreview 方法详解与实例

本文详细介绍了 GWT 中 PopupPanel 类的 onKeyDownPreview 方法，提供了多个代码示例及应用场景，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:07:27

手机用户2502929415

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章