hive内置函数_HiveQuery生命周期——钩子（Hook）函数篇

作者：Jessica_猪猪到_697 | 来源：互联网 | 2023-09-03 17:50

无论你通过哪种方式连接Hive(如HiveCli、HiveServer2)，一个HQL语句都要经过Driver的解析和执行，主要涉及HQL解析、编译、优

无论你通过哪种方式连接Hive(如Hive Cli、HiveServer2)&＃xff0c;一个HQL语句都要经过Driver的解析和执行&＃xff0c;主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。

以Hive目前原生支持计算引擎MapReduce为例&＃xff0c;具体处理流程如下&＃xff1a;

HQL解析生成AST语法树Antlr定义SQL的语法规则&＃xff0c;完成SQL词法和语法解析&＃xff0c;将SQL转化为抽象语法树AST Tree
语法分析得到QueryBlock遍历AST Tree&＃xff0c;抽象出查询的基本组成单元QueryBlock
生成逻辑执行计划遍历QueryBlock&＃xff0c;翻译为执行操作树Operator Tree
Logical Optimizer Operator进行逻辑优化逻辑层优化器进行OperatorTree变换&＃xff0c;合并不必要的ReduceSinkOperator&＃xff0c;减少shuffle数据量
生成物理执行计划Task Plan遍历Operator Tree&＃xff0c;翻译为MapReduce任务
物理优化Task Tree&＃xff0c;构建执行计划QueryPlan物理层优化器进行MapReduce任务的变换&＃xff0c;生成最终的执行计划
表以及其他操作鉴权
执行引擎执行

在Hive Query整个生命周期中&＃xff0c;会有如下钩子函数被执行&＃xff1a;

HiveDriverRunHook的preDriverRun该钩子函数由参数hive.exec.driver.run.hooks控制&＃xff0c;决定要运行的pre hooks&＃xff0c;多个钩子实现类以逗号间隔&＃xff0c;钩子需实现 org.apache.hadoop.hive.ql.HiveDriverRunHook接口。

HiveSemanticAnalyzerHook的preAnalyze

在Driver开始run之前&＃xff0c;HQL经过解析会进入编译阶段的语法分析&＃xff0c;而在语法分析前会经过钩子HiveSemanticAnalyzerHook的preAnalyze方法处理。该钩子函数由hive.semantic.analyzer.hook配置&＃xff0c;钩子需实现org.apache.hadoop.hive.ql.parse.HiveSemanticAnalyzerHook接口。

HiveSemanticAnalyzerHook的postAnalyze

与preAnalyze同属于一个钩子类&＃xff0c;配置参数相同&＃xff0c;会执行所有配置的语义分析hooks&＃xff0c;但它位于Hive的语法分析之后&＃xff0c;可以获取HQL的输入和输出表及分区信息&＃xff0c;以及语法分析得到的task信息&＃xff0c;由此可以判断是否是需要分布式执行的任务&＃xff0c;以及执行引擎是什么。

生成执行计划之前的redactor钩子

该钩子由hive.exec.query.redactor.hooks配置&＃xff0c;多个实现类以逗号间隔&＃xff0c;钩子需继承org.apache.hadoop.hive.ql.hooks.Redactor抽象类&＃xff0c;并替换redactQuery方法。

这个钩子函数是在语法分析之后&＃xff0c;生成QueryPlan之前&＃xff0c;所以执行它的时候语法分析已完成&＃xff0c;具体要跑的任务已定&＃xff0c;这个钩子的目的在于完成QueryString的替换&＃xff0c;比如QueryString中包含敏感的表或字段信息&＃xff0c;在这里都可以完成替换&＃xff0c;从而在Yarn的RM界面或其他方式查询该任务的时候&＃xff0c;会显示经过替换后的HQL。

task执行前的preExecutionHook

在执行计划QueryPlan生成完&＃xff0c;并通过鉴权后&＃xff0c;就会执行具体的task&＃xff0c;而task执行之前会经过一个钩子函数&＃xff0c;钩子函数由hive.exec.pre.hooks配置&＃xff0c;多个钩子实现类以逗号间隔。实现方式&＃xff1a;

1)实现org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext
通过实现该接口的run方法&＃xff0c;执行所有的pre-execution hooks

// Pre/Post Execute Hook can run with the HookContextpublic interface ExecuteWithHookContext extends Hook {/** hookContext: The hook context passed to each hooks. * HookContext带有执行计划、Hive的配置信息、Lineage、UGI、提交的用户以及输入输出表等信息 */void run(HookContext hookContext) throws Exception;}2)实现org.apache.hadoop.hive.ql.hooks.PreExecute该接口的run方法已经标注为过时&＃xff0c;并且相对于ExecuteWithHookContext&＃xff0c;PreExecute提供的信息可能不能完全满足我们的业务需求。

public interface PreExecute extends Hook {/** * The run command that is called just before the execution of the query. * SessionState、UGI、HQL输入表及分区信息&＃xff0c;HQL输出表、分区以及本地和hdfs文件目录信息 */&＃64;Deprecatedpublic void run(SessionState sess, Set inputs,Set outputs, UserGroupInformation ugi) throws Exception;}task执行失败时的ON_FAILURE_HOOKS

task执行失败时&＃xff0c;Hive会调用这个hook执行一些处理措施。该钩子由参数hive.exec.failure.hooks配置&＃xff0c;多个钩子实现类以逗号间隔。需实实现org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext接口。

task执行完成时的postExecutionHook

在task任务执行完成后执行。如果task失败&＃xff0c;会先执行ON_FAILURE_HOOKS&＃xff0c;之后执行postExecutionHook&＃xff0c;该钩子由参数hive.exec.post.hooks指定的hooks(多个钩子实现类以逗号间隔)执行post execution hooks。实现方式&＃xff1a;

1)实现org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext

2)实现org.apache.hadoop.hive.ql.hooks.PostExecute

ExecuteWithHookContext和PostExecute跟分别与上述task执行前的preExecutionHook、PreExecute对应&＃xff0c;这里不再赘述。

HiveDriverRunHook的postDriverRun

在查询完成运行之后以及将结果返回给客户端之前执行&＃xff0c;与preDriverRun对应。

此外&＃xff0c;Hive中已经有一些内置实现的hook&＃xff0c;下面举一些例子以及它们的主要作用&＃xff1a;

ATSHook&＃xff1a;实现了ExecuteWithHookContext&＃xff0c;将查询和计划信息推送到Yarn App Timeline Server。

DriverTestHook&＃xff1a;实现了HiveDriverRunHook的preDriverRun方法(对postDriverRun是空实现)&＃xff0c;用于打印输出的命令。

EnforceReadOnlyTables&＃xff1a;pre execute hook&＃xff0c;实现了ExecuteWithHookContext&＃xff0c;用于阻止修改只读表。

LineageLogger&＃xff1a;实现了ExecuteWithHookContext&＃xff0c;它将查询的血统信息记录到日志文件中。LineageInfo包含有关query血统的所有信息。

PreExecutePrinter和PostExecutePrinter&＃xff1a;pre和post hook的示例&＃xff0c;它将参数打印输出。

PostExecTezSummaryPrinter&＃xff1a;post execution hook&＃xff0c;实现了ExecuteWithHookContext&＃xff0c;可以打印Hive Tez计数器的相关信息。

PostExecOrcFileDump&＃xff1a;post execution hook&＃xff0c;实现了ExecuteWithHookContext&＃xff0c;用于打印ORC文件信息。

UpdateInputAccessTimeHook&＃xff1a;pre execution hook&＃xff0c;可在运行查询之前更新所有输入表的访问时间。

特别强调一下LineageLogger和LineageInfo&＃xff0c;对于做Hive血缘关系分析很有参考价值&＃xff0c;当然Hive血缘分析不是本篇文章的重点&＃xff0c;这里先不做展开。

通过对上面Hive中hook的执行"位置"和作用&＃xff0c;以及Hive本身实现的一些Hook&＃xff0c;分析可知&＃xff1a;自定义hook&＃xff0c;比如实现一个pre execution hook。

首先在maven的pom中引入hive-exec的依赖&＃xff0c;如&＃xff1a;

org.apache.hivegroupId> hive-execartifactId> 2.1.0version>dependency>

此外&＃xff0c;还需创建一个实现ExecuteWithHookContext的类&＃xff0c;实现其中的run方法&＃xff0c;并设置相应的参数&＃xff0c;使自定义的hook类生效。

最后&＃xff0c;通过一张图&＃xff0c;来对Hive Hook做个总结&＃xff1a;

关联文章&＃xff1a;Hive Join优化Apache Hive

关注大数据学习与分享&＃xff0c;获取更多技术干货

推荐阅读

int
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
object
Vue 3 中 setup() 函数的正确 TypeScript 类型

本文介绍了如何在 Vue 3 组合 API 中正确设置 setup() 函数的 TypeScript 类型，以避免隐式 any 类型的问题。 ... [详细]

蜡笔小新 2024-11-13 13:55:22
main
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
int
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
int
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
main
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
int
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
main
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
main
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
main
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
int
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
tags
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
tags
FreeBSD环境下PHP GD库安装问题的详细解决方案

在 FreeBSD 环境下，安装 PHP GD 库时可能会遇到一些常见的问题。本文详细介绍了从配置到编译的完整步骤，包括解决依赖关系、配置选项以及常见错误的处理方法。通过这些详细的指导，开发者可以顺利地在 FreeBSD 上完成 PHP GD 库的安装，确保其正常运行。此外，本文还提供了一些优化建议，帮助提高安装过程的效率和稳定性。 ... [详细]

蜡笔小新 2024-11-09 17:50:30
main
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
main
Linux 环境下多线程编程实战案例分析

在 Linux 环境下，多线程编程是实现高效并发处理的重要技术。本文通过具体的实战案例，详细分析了多线程编程的关键技术和常见问题。文章首先介绍了多线程的基本概念和创建方法，然后通过实例代码展示了如何使用 pthreads 库进行线程同步和通信。此外，还探讨了多线程程序中的性能优化技巧和调试方法，为开发者提供了宝贵的实践经验。 ... [详细]

蜡笔小新 2024-11-08 13:02:21

Jessica_猪猪到_697

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章