大数据组件之oozie

作者：feify_fei512_478 | 来源：互联网 | 2023-09-13 17:27

一、oozie介绍官网首页介绍：http://oozie.apache.org

一、oozie介绍

官网首页介绍：http://oozie.apache.org

（1）Oozie是一个管理 Apache Hadoop 作业的工作流调度系统。
（2）Oozie的 workflow jobs 是由 actions 组成的有向无环图(DAG)。
（3）Oozie的 coordinator jobs 是由时间 (频率)和数据可用性触发的重复的 workflow jobs 。
（4）Oozie与Hadoop生态圈的其他部分集成在一起，支持多种类型的Hadoop作业（如Java map-reduce、流式map-reduce、Pig、Hive、Sqoop和Distcp）以及特定于系统的工作（如ava程序和shell脚本）。
（5）Oozie是一个可伸缩、可靠和可扩展的系统。

二、对比选型

简单项目的话可以用crontab来做控制，但是项目比较复杂的话会发现还是有很多不方便的，比如失败重启和日志查看等问题，所以我们通常在Azkaban和oozie之间做对比，选择适合自己公司或者项目的任务调度工具

执行方式：Oozie底层在提交Hadoop Spark作业而Azkaban是直接操作shell语句。
工作流定义： Oozie是通过xml定义的而Azkaban为properties来定义。
部署过程： Oozie的部署相对困难些，同时它是从Yarn上拉任务日志。
任务检测： Azkaban中如果有任务出现失败，只要进程有效执行，那么任务就算执行成功，这是BUG，但是Oozie能有效的检测任务的成功与失败。
操作工作流： Azkaban使用Web操作。Oozie支持Web，RestApi，Java API操作。
权限控制： Oozie基本无权限控制，Azkaban有较完善的权限控制，供用户对工作流读写执行操作。
运行环境： Oozie的action主要运行在hadoop中而Azkaban的actions运行在Azkaban的服务器中。
记录workflow的状态： Azkaban将正在执行的workflow状态保存在内存中，Oozie将其保存在Mysql中。
出现失败的情况： Azkaban会丢失所有的工作流，但是Oozie可以在继续失败的工作流运行
两者在功能方面大致相同，在安全性上可能Oozie会比较好，加之我们选择了CDH作为大数据平台，所以就用了其自带的oozie工具，且有相应的可视化操作工具hue配套使用，较为便捷。

三、架构原理

Oozie主要有三个层层包裹的主要概念

Workflow：工作流，由我们需要处理的每个工作组成，进行需求的流式处理，是对要进行的顺序化工作的抽象。
Coordinator：协调器，可以理解为工作流的协调器，可以将多个工作流协调成一个工作流来进行处理，是对要进行的顺序化的workflow的抽象。
Bundle：捆，束。将一堆的coordinator进行汇总处理，是对一堆coordiantor的抽象。

关于oozie的作业

Oozie的作业有三部分组成，分别是job.properties，workflow.xml，lib文件夹。下面分别介绍

Job.properties

从名称也能看出来，这个文件是用来配置作业（job）中用到的各种参数的，总结如下

注：
1、这个文件如果是在本地通过命令行进行任务提交的话，这个文件在本地就可以了，当然也可以放在hdfs上，与workflow.xml和lib处于同一层级。
2、nameNode，jobTracker和workflow.xml在hdfs中的位置必须设置。

一个简单的job.properties文件如下：

nameNode=hdfs://cm1:8020 jobTracker=cm1:8032 queueName=default examplesRoot=examples oozie.wf.application.path=${nameNode}/user/workflow/oozie/shell

workflow.xml：

这个文件是定义任务的整体流程的文件，需要注意的有三点：版本信息，EL函数，节点信息。
先上一个例子：

01. 02. 03. 04. 05. 06. ${fs:exists(concat(concat("/xxx/output/xxxList/", 07. task_id),"/_SUCCESS"))} 08. 09. 10. 11. 12. 13. 14. ${fs:exists(concat(concat(“/xxx/output/", task_id),"/_SUCCESS"))} 15. 16. 17. 18. 19. 20. 21. ${jobTracker} 22. ${namenode} 23. 24. 25. mapreduce.job.queuename 26. ${queueName} 27. 28. 29. com.xxx.Main 30. 31. 32. 33. 34. 35. Map/Reduce failed.error message[${wf:errorMessage(wf:lastErrorNode())}] 36. 37. 38.

版本信息：
这个是写在第一行的，如下：

在xmls属性中定义了workflow的版本为0.4，workflow的版本不能高于oozie兼容的最高版本，可以降低。

EL函数
常用的EL函数有基本的EL函数，workFlow EL函数和HDFSEL函数。分别如下：

节点：
Oozie的节点分成两种，流程控制节点和动作节点。所谓的节点实际就是一组标签。两种节点分别如下：

A. 流程控制节点

——定义workflow的开始
——定义workflow的结束
——实现switch功能
标签连用
——调用子workflow
——程序出错后跳转到这个节点执行相关操作
——并发执行workflow
——并发执行结束（与fork一起使用）

案例:

B. 动作节点

——表示运行的是shell操作
——表示运行的java程序
——表示是对hdfs进行操作
——表示进行的是MR操作
——表示进程的是hive操作
——表示进行的是sqoop的相关操作

Workflow.xml综述
文件需要被放在HDFS上才能被oozie调度，如果在启动需要调动MR任务，jar包同样需要在hdfs上。最终的目录结构如下：

/xxx/oozie/workflow.xml /xxx/oozie/lib /xxx/oozie/lib/mr-1.7-SNAPSHOT-**package**.jar /xxx/oozie/lib/xxx.mr-1.7-SNAPSHOT-**package**.jar

Lib文件夹：

在workflow工作流定义的同级目录下，需要有一个lib目录，在lib目录中存在java节点MapReduce使用的jar包。需要注意的是，oozie并不是使用指定jar包的名称来启动任务的，而是通过制定主类来启动任务的。在lib包中绝对不能存在某个jar包的不同版本，不能够出现多个相同主类。

四、安装搭建

在搭建好CDH后，可以直接通过添加服务的方式实现oozie的安装，比较方便。当然也可以在服务器上搭建独立的oozie服务，具体可参考https://oozie.apache.org/docs/5.0.0/AG_Install.html

搭设后进入oozie web控制台，地址为：OozieserverIp：11000/oozie/ （OozieserverIp为oozie所在的服务器的ip地址），界面如下：

oozie控制台

注：如果界面报错 Oozie web console is disabled，请看https://docs.cloudera.com/documentation/enterprise/5-5-x/topics/admin_oozie_console.html

五、开发使用

1.拷贝官方自带实例模板

cp -r examples/apps/shell/ oozie-apps

2.修改job.properties

nameNode=hdfs://hadoop:8020 jobTracker=hadoop:8032 queueName=default examplesRoot=oozie-apps oozie.wf.application.path=${nameNode}/user/hadoop/${examplesRoot}/shell EXEC=mem.sh #放一个脚本文件，脚本文件名称

3.修改workflow.xml

${jobTracker}${nameNode}mapred.job.queue.name${queueName}${EXEC}${nameNode}/user/hadoop/${examplesRoot}/shell/${EXEC}#${EXEC}Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]

4.在shell目录下创建mem.sh

#!/bin/sh /usr/bin/date -R >> /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell/1.log /usr/bin/free -m >> /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell/1.log /usr/bin/df -lh >> /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell/1.log echo ------------------- >> /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell/1.log

注：/usr/bin/date为命令绝对路径，可以通过which date获得

5.上传到hdfs

bin/hdfs dfs -put /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell /user/hadoop/oozie-apps/

6.执行：

bin/oozie job -oozie http://hadoop:11000/oozie -config oozie-apps/shell/job.properties -run

7.检查结果

cat /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell/1.log

推荐阅读

io
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
stream
Java虚拟机及其发展历程

Java虚拟机（JVM）是每个Java开发者日常工作中不可或缺的一部分，但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程，帮助读者深入了解这一关键技术。 ... [详细]

蜡笔小新 2024-11-23 08:59:58
stream
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
stream
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
io
Windows环境下Apache频繁崩溃的解决方案

本文探讨了在Windows系统中运行Apache服务器时频繁出现崩溃的问题，并提供了多种可能的解决方案和建议。错误日志显示多个子进程因达到最大请求限制而退出。 ... [详细]

蜡笔小新 2024-11-20 13:07:27
io
如何在U8系统中连接服务器并获取数据

本文介绍了如何在U8系统中通过不同的方法连接服务器并获取数据，包括使用MySQL客户端连接实例的方法，如非SSL连接和SSL连接，并提供了详细的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-19 12:08:19
select
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
io
Hibernate框架简述

Hibernate全自动全映射ORM框架，旨在消除sql，是一个持久层的ORM框架1）、基础概念DAO(DataAccessorOb ... [详细]

蜡笔小新 2024-11-22 16:36:49
io
Docker安全策略与管理

本文探讨了Docker的安全挑战、核心安全特性及其管理策略，旨在帮助读者深入理解Docker安全机制，并提供实用的安全管理建议。 ... [详细]

蜡笔小新 2024-11-21 20:03:03
io
解决PHP项目在服务器无法抓取远程网页内容的问题

本文探讨了在使用PHP进行后端开发时，遇到的一个常见问题：即在本地环境中能够正常通过CURL获取远程网页内容，但在服务器上却无法实现。我们将分析可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-11-21 10:31:32
io
在IIS上部署Orchard时遇到的技术挑战

本文记录了在Windows 8.1系统环境下，使用IIS 8.5和Visual Studio 2013部署Orchard 1.7.2过程中遇到的问题及解决方案，包括503服务不可用错误和web.config配置错误。 ... [详细]

蜡笔小新 2024-11-20 16:51:36
split
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
stream
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
stream
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30

feify_fei512_478

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章