探索HiveUDF的应用

作者：藏A组合别_577 | 来源：互联网 | 2024-11-26 11:08

本文介绍了在解决Hive表中复杂数据结构平铺化问题后，如何通过创建视图来准确计算广告日志的曝光PV，特别是针对用户对应多个标签的情况。同时，详细探讨了UDF的使用方法及其在实际项目中的应用。

引言

在之前的讨论中，我们解决了如何将Hive表中的复杂数据结构平铺化以便导入Kylin的问题。然而，在这一过程中，广告日志的曝光PV（Page View）出现了翻倍的情况，原因在于单个用户可能对应多个标签。因此，为了准确计算曝光PV，我们需要创建特定的视图来处理这个问题。

具体需求分析如下：

每个DSP（Demand Side Platform）上的曝光PV以及标签覆盖的曝光PV；
累计的曝光PV及标签覆盖的累计曝光PV。

这可以通过构建一个多维立方体（Cube），并结合相应的度量指标来实现，例如：`cube(dsp, tag) + measure(pv)`。以下是相应的Hive查询语句示例：

SELECT dsp, tag, COUNT(*) AS pv FROM ad_view WHERE view = 'view' AND day_time BETWEEN '2016-04-18' AND '2016-04-24' GROUP BY dsp, tag WITH CUBE;

接下来的问题是如何将原始表中的`tags`数组转换成带有标签或无标签的形式。最直接的方法是编写一个UDF（User-Defined Function）来判断`tags`数组中是否存在标签。

实战应用

UDF概述

UDF在Hive中分为三类：

用于字段转换的UDF，如`round()`、`abs()`、`concat()`等；
聚合函数UDAF（User-Defined Aggregate Functions），例如`sum()`、`avg()`等；
表生成函数UDTF（User-Defined Table Generating Functions），用于生成多列或多行数据，如`explode()`、`inline()`等。

使用UDTF时需注意，它不能出现在SELECT子句之外，也不能嵌套在表达式中。为了解决这一限制，Hive引入了`LATERAL VIEW`关键字，允许将UDTF的结果与其他列组合使用。

UDF与GenericUDF的区别

`org.apache.hadoop.hive.ql.exec.UDF`是所有字段转换操作的基础类，适用于简单的数据类型转换，主要通过重写`evaluate()`方法来实现具体功能。相比之下，`org.apache.hadoop.hive.ql.udf.generic.GenericUDF`提供了更强大的功能，支持复杂的数据类型处理，主要包括三个关键方法：

`initialize(ObjectInspector[] arguments)`：用于检查输入参数的类型，并确定返回值的类型；
`evaluate(DeferredObject[] arguments)`：实现具体的字段转换逻辑，其返回值类型应与`initialize`方法中定义的一致；
`getDisplayString(String[] children)`：用于显示调试信息。

下面是一个用于判断`tags`数组是否为空标签（EMPTY）的UDF实现示例：

@Description(name = "checkTag", value = "_FUNC_(array) - 从输入的结构体数组中返回标签或无标签（EMPTY）。", extended = "示例：\n > SELECT _FUNC_(tags_array) FROM src;") public class CheckTag extends GenericUDF { private ListObjectInspector listOI; public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException { if (arguments.length != 1) { throw new UDFArgumentLengthException("仅接受1个参数: List"); } ObjectInspector a = arguments[0]; if (!(a instanceof ListObjectInspector)) { throw new UDFArgumentException("第一个参数必须是列表/数组"); } this.listOI = (ListObjectInspector) a; if (!(listOI.getListElementObjectInspector() instanceof StructObjectInspector)) { throw new UDFArgumentException("第一个参数必须是结构体列表"); } return PrimitiveObjectInspectorFactory.javaStringObjectInspector; } public Object evaluate(DeferredObject[] arguments) throws HiveException { if (listOI == null || listOI.getListLength(arguments[0].get()) == 0) { return "null_field"; } StructObjectInspector structOI = (StructObjectInspector) listOI.getListElementObjectInspector(); String tag = structOI.getStructFieldData(listOI.getListElement(arguments[0].get(), 0), structOI.getStructFieldRef("tag")).toString(); if (listOI.getListLength(arguments[0].get()) == 1 && tag.equals("EMPTY")) { return "EMPTY"; } return "TAGED"; } public String getDisplayString(String[] children) { return "检查标签是否为空"; } }

为了使上述代码能够正常运行，还需要在项目中添加必要的依赖项：

 org.apache.hive hive-exec 0.14.0 provided   org.apache.hadoop hadoop-common 2.5.0-cdh5.3.2 provided

完成编译并将生成的JAR文件上传至HDFS后，即可通过以下命令在Hive中注册并使用此UDF：

ADD JAR hdfs://path/to/udf-1.0-SNAPSHOT.jar; CREATE TEMPORARY FUNCTION checktag AS 'com.hive.udf.CheckTag'; CREATE VIEW IF NOT EXISTS yooshu_view PARTITIONED ON (day_time) AS SELECT uid, dsp, view, click, checktag(tags) AS tag, day_time FROM ad_base;

推荐阅读

object
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
object
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
runtime
XNA 3.0 游戏编程：从 XML 文件加载数据

本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件，并通过内容管道加载到游戏中。此外，还会涉及自定义类型读取器和写入器的实现。 ... [详细]

蜡笔小新 2024-12-27 11:39:44
object
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
spring
实体映射最强工具类：MapStruct真香

实体映射最强工具类：MapStruct真香 ... [详细]

蜡笔小新 2024-12-25 16:22:17
config
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
object
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
spring
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
foreach
深入解析 MVC 源码：ParameterDescriptor 与 Action 方法参数绑定

在前两篇文章中，我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象，分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor，即用于描述 Action 方法参数的对象，并详细介绍其工作原理。 ... [详细]

蜡笔小新 2024-12-27 15:26:10
future
ImmutableX Poised to Pioneer Web3 Gaming Revolution

ImmutableX is set to spearhead the evolution of Web3 gaming, with its innovative technologies and strategic partnerships driving significant advancements in the industry. ... [详细]

蜡笔小新 2024-12-27 08:55:17
string
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
window
基因组浏览器中的Wig格式解析

本文详细介绍了Wiggle（Wig）格式及其在基因组浏览器中的应用，涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时，还提供了关于数据值和自定义参数的补充信息。 ... [详细]

蜡笔小新 2024-12-26 11:21:09
object
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14
config
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
config
VSCode 自定义代码片段配置：实现类似IDEA的快捷代码段（如sout或psvm）

本文详细介绍如何在VSCode中配置自定义代码片段，使其具备与IDEA相似的代码生成快捷键功能。通过具体的Java和HTML代码片段示例，展示配置步骤及效果。 ... [详细]

蜡笔小新 2024-12-25 17:10:13

藏A组合别_577

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章