当前位置: 开发笔记 > 编程语言 > 正文

【数仓项目记录4】全流程调度及可视化

作者：qCANL | 来源：互联网 | 2023-05-18 13:20

全流程调度器部署1.不同层数据装载脚本之间存在依赖关系2.业务数据每天都产生，因此脚本每天都要执行--定时问题可以考虑使用ooize、Azkaban，Ooize是重量级的任务调度系

全流程调度器部署

1.不同层数据装载脚本之间存在依赖关系

2.业务数据每天都产生，因此脚本每天都要执行--定时问题

可以考虑使用ooize、Azkaban，Ooize是重量级的任务调度系统，配置更复杂，配合界面UI使用

说到定时——想到linux中的crontab命令

crontab命令详解

命令格式：

crontab [-u user] file

crontab [-u user] [ -e | -l | -r ]

命令功能：

通过crontab 命令，我们可以在固定的间隔时间执行指定的系统指令或 shell script脚本。

Azkaban学习

Azkaban是一个轻量级工作流程调度器（Crontab定时的是单一的工作/任务）

工作流程：由多个相互依赖的工作单元组成

Azkaban Web Server MySQL Azkaban Executor Server

Azkaban Executor Server处理工作流和作业的实际执行

部署模型：单机模式/集群模式（Web Server和Executor Server独立部署，可部署多个Executor Server，能够起到一定的负载均衡和容灾的作用）

本项目中在hadoop102部署Web Server,在hadoop102，hadoop103，hadoop104上部署Executor Server

在hadoop102上创建azkaban用户，赋予其增删改查的权限。再创建一个azkaban的库，进行数据库初始化

下图表示hadoop102上的executor已经启动，但未激活

执行下面的语句后，更新表可以看到已激活

curl -G "hadoop104:12321/executor?action=activate" && echo

Azkaban失败重试

自动失败重试：在config中设置config: retries: 3 retry.backoff: 10000

手动失败重试：

手动将其设置为disable

Azkaban条件工作流

1）运行时参数案例

父Job将参数写入JOB_OUTPUT_PROP_FILE环境变量所指向的文件

子Job使用 ${jobName:param}来获取父Job输出的参数并定义执行条件

2）预定义宏案例

Azkaban中预置了几个特殊的判断条件，称为预定义宏

预定义宏会根据所有父 Job 的完成情况进行判断，再决定是否执行。可用的预定义宏如下:

(1)all_success: 表示父 Job 全部成功才执行(默认)

(2)all_done:表示父 Job 全部完成才执行

(3)all_failed:表示父 Job 全部失败才执行

(4)one_success:表示父 Job 至少一个成功才执行

(5)one_failed:表示父 Job 至少一个失败才执行

定时任务

需求:JobA 每间隔 1 分钟执行一次;

具体步骤:

1)Azkaban 可以定时执行工作流。在执行工作流时候，选择左下角 Schedule

2)右上角注意时区是上海，然后在左面填写具体执行事件，填写的方法和 crontab 配置定时任务规则一致。

邮件报警（重要）

Azkaban默认自带支持邮件报警

1.打开邮箱的SMTP协议

2.在hadoop102中配置文件

3.重新登录账号，在azkaban界面-文件执行的部分设置notification

成功/失败都可以发邮件到设置的邮箱

电话报警

第三方告警平台集成，如睿象云免费试用

1.将睿象云与azkaban进行集成（选择通用集成中的Cloud Alert Email集成方式）当睿象云的邮箱接收到我们azkaban发过去的邮件，就会出发电话报警

2.利用睿象云发送电话报警

注意：

在测试过程中发现，如果azkaban的发件人是qq邮箱，发送到睿象云的邮件会被退回，所以只好改成其余的如126邮箱

多Excutor模式的注意事项

Azkaban 多 Executor 模式是指，在集群中多个节点部署 Executor。在这种模式下， Azkaban web Server 会根据策略，选取其中一个 Executor 去执行任务。

为确保所选的 Executor 能够准确的执行任务，我们须在以下两种方案任选其一，推荐使用方案二。

方案一:指定特定的 Executor(hadoop102)去执行任务。

1)在 MySQL 中 azkaban 数据库 executors 表中，查询 hadoop102 上的 Executor 的 id。

2)在执行工作流程时加入 useExecutor 属性，如下

方案二:在 Executor 所在所有节点部署任务所需脚本和应用。（推荐）

在数仓项目中使用azkaban进行全流程调度

流程：

数据采集

1）用户行为日志flume-kafka-hdfs。不需要进行每日工作调度，即不需要包含在工作流程中。因为flume实时采集通道需要在启动后一直运行，不需要每天重复启动

2）业务数据。sqoop进行批量导数据，每次执行sqoop相当于执行mapreduce,因此sqoop流程需要包含在调度流程中

ads层的数据在作用于报表系统之前，会先用sqoop从hive中的数据（hdfs中）导出到mysql中

导出时只支持将hdfs文件导出到mysql

注意：

1.mysql中建表字段与ads中的字段个数、顺序、类型一致

2.由于每天都是以文件的形式全表导入，因此需要注意mysql数据的重复问题:通过建立主键和唯一键解决

全流程调度新日期的数据准备

用户行为日志写到hdfs上，业务数据写到mysql

用户日志的生成过程：

1.启动zookeeper、kafka、flume

2.修改hadoop102,hadoop103上的application.yml日期

3.然后使用lg.sh产生日志，可以去hadoop102:9870的origin_data中查看

4.考虑到我们机器的资源不足，关闭flume、kafka

业务数据的生成：

进入/opt/module/db_log/

修改application.properties

azkaban中任务的流程图

编写azkaban.projext 和 gmall.flow

Azkaban上传文件报错：Installation Failed. java.lang.String cannot be cast to java.util.Map 可以确定是.project 文件的问题，读成了version0，所以修改.project 文件： azkaban-flow-version: 2.0 注意2.0与：之间要两个空格

推荐阅读

ip
在Linux系统中避免安装MySQL的简易指南

在Linux系统中避免安装MySQL的简易指南 ... [详细]

蜡笔小新 2024-11-11 13:22:28
ip
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
ip
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
object
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
char
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
ip
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
config
Web服务器与MySQL服务器分离配置疑问

在将Web服务器和MySQL服务器分离的情况下，是否需要在Web服务器上安装MySQL？如果安装了MySQL，如何解决PHP连接MySQL服务器时出现的连接失败问题？ ... [详细]

蜡笔小新 2024-11-13 23:06:58
ip
CentOS 6.4 安装 QT5 时无法找到 GLIBCXX_3.4.15 的解决方案

在 CentOS 6.4 上安装 QT5 并启动 Qt Creator 时，可能会遇到缺少 GLIBCXX_3.4.15 的问题。这是由于系统中的 libstdc++.so.6 版本过低。本文将详细介绍如何通过更新 GCC 版本来解决这一问题。 ... [详细]

蜡笔小新 2024-11-13 16:52:41
config
在Linux系统上彻底卸载Zimbra邮件系统

本文详细介绍了如何在Linux系统（以CentOS为例）上彻底卸载Zimbra邮件系统，包括停止服务、删除文件和用户等步骤。 ... [详细]

蜡笔小新 2024-11-13 14:32:16
ip
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
config
基于Vue和Nuxt的服务端渲染，Node.js全栈项目的博客系统搭建

大家好，我是李白。本文将分享一个从零开始的全栈项目，涵盖了设计、前端、后端和服务端的全面学习过程。通过这个项目，我希望能够帮助初学者更好地理解和掌握全栈开发的技术栈。 ... [详细]

蜡笔小新 2024-11-12 17:27:19
triggers
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
ip
基于Linux开源VOIP系统LinPhone[四]

****************************************************************************************** ... [详细]

蜡笔小新 2024-11-12 11:00:11
settings
Python 3 Scrapy 框架执行流程详解

本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架，包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架，适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]

蜡笔小新 2024-11-12 10:51:15
ip
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24