hive序列生成_Hive实现自增列的两种方法

作者：榴莲味蛋筒 | 来源：互联网 | 2023-08-21 14:47

多维数据仓库中的维度表和事实表一般都需要有一个代理键，作为这些表的主键，代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列࿰

多维数据仓库中的维度表和事实表一般都需要有一个代理键&＃xff0c;作为这些表的主键&＃xff0c;代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列&＃xff0c;但它也有一些对自增序列的支持&＃xff0c;通常有两种方法生成代理键&＃xff1a;使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。

假设有维度表tbl_dim和过渡表tbl_stg&＃xff0c;现在要将tbl_stg的数据装载到tbl_dim&＃xff0c;装载的同时生成维度表的代理键。

用row_number()函数生成代理键

insertintotbl_dim

selectrow_number() over (orderbytbl_stg.id) &＃43; t2.sk_max, tbl_stg.*

fromtbl_stg

crossjoin(selectcoalesce(max(sk),0) sk_maxfromtbl_dim) t2;

上面语句中&＃xff0c;先查询维度表中已有记录最大的代理键值&＃xff0c;如果维度表中还没有记录&＃xff0c;利用coalesce函数返回0。然后使用cross join连接生成过渡表和最大代理键值的笛卡尔集&＃xff0c;最后使用row_number()函数生成行号&＃xff0c;并将行号与最大代理键值相加的值&＃xff0c;作为新装载记录的代理键。

用UDFRowSequence生成代理键

addjar hdfs:///user/hive-contrib-2.0.0.jar;

createtemporaryfunctionrow_sequenceas&＃39;org.apache.hadoop.hive.contrib.udf.udfrowsequence&＃39;;

insertintotbl_dim

selectrow_sequence() &＃43; t2.sk_max, tbl_stg.*

fromtbl_stg

crossjoin(selectcoalesce(max(sk),0) sk_maxfromtbl_dim) t2;

hive-contrib-2.0.0.jar中包含一个生成记录序号的自定义函数udfrowsequence。上面的语句先加载JAR包&＃xff0c;然后创建一个名为row_sequence()的临时函数作为调用UDF的接口&＃xff0c;这样可以为查询的结果集生成一个自增伪列。之后就和row_number()写法类似了&＃xff0c;只不过将窗口函数row_number()替换为row_sequence()函数。

这里需要强调下&＃xff1a;

第二种方式使用为apache版本的hive。对于CDH版本hive需要在集群的中找到其相关jar&＃xff0c;

具体步骤&＃xff1a;

1.进入集群如[root&＃64;sdzn-server06 dm_lots]# find / -name hive-contrib-*

准确找到jar包和路经。如/opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/jars/hive-contrib-0.13.1-cdh5.3.6.jar

2.将其放入到对应(自定义)的集群下的目录

如图

3.创建函数

create temporary function row_sequence as &＃39;org.apache.hadoop.hive.contrib.udf.UDFRowSequence&＃39;;

这里需要注意org.apache.hadoop.hive.contrib.udf.UDFRowSequence必须完全正确否则&＃xff0c;创建失败&＃xff01;

查看方式&＃xff1a;

将jar导出并解压&＃xff0c;一一核对即可&＃xff01;

摘自&＃xff1a;http://blog.csdn.net/wzy0623/article/details/53893174博文&＃xff01;

推荐阅读

select
在Ubuntu 16.04 LTS上配置Qt Creator开发环境

本文详细介绍了如何在Ubuntu 16.04 LTS系统中安装和配置Qt Creator，涵盖了从下载到安装的全过程，并提供了常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-27 13:19:53
schema
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
schema
PostgreSQL中的模式管理

本文由瀚高PG实验室撰写，详细介绍了如何在PostgreSQL中创建、管理和删除模式。文章涵盖了创建模式的基本命令、public模式的特性、权限设置以及通过角色对象简化操作的方法。 ... [详细]

蜡笔小新 2024-12-26 11:37:26
split
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14
hash
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47
bit
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
heap
C++实现经典排序算法

本文详细介绍了七种经典的排序算法及其性能分析。每种算法的平均、最坏和最好情况的时间复杂度、辅助空间需求以及稳定性都被列出，帮助读者全面了解这些排序方法的特点。 ... [详细]

蜡笔小新 2024-12-27 19:25:14
post
构建基于BERT的中文NL2SQL模型：一个简明的基准

本文探讨了将自然语言转换为SQL语句（NL2SQL）的任务，这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践，该比赛提供了金融和通用领域的表格数据，并标注了对应的自然语言与SQL语句对，旨在训练准确的NL2SQL模型。 ... [详细]

蜡笔小新 2024-12-27 17:36:19
c语言
C语言链表动态创建：头插法与尾插法详解

本文详细介绍了C语言中链表的两种动态创建方法——头插法和尾插法，包括具体的实现代码和运行示例。通过这些内容，读者可以更好地理解和掌握链表的基本操作。 ... [详细]

蜡笔小新 2024-12-26 13:59:07
c语言
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
schema
openGauss每日一练：第6天 - 模式的创建、修改与删除

本篇笔记记录了openGauss数据库中关于模式（Schema）的创建、修改和删除操作。通过这些操作，用户可以更好地管理和控制数据库对象。实验环境为openGauss 2.0.0，并使用由墨天轮提供的线上环境。 ... [详细]

蜡笔小新 2024-12-26 00:17:35
select
MySQL LAST_INSERT_ID() 函数深入解析

本文详细介绍了 MySQL 中 LAST_INSERT_ID() 函数的使用方法及其工作原理，包括如何获取最后一个插入记录的自增 ID、多行插入时的行为以及在不同客户端环境下的表现。 ... [详细]

蜡笔小新 2024-12-25 22:04:04
select
解析猫鼬 findOne 方法返回 null 的原因

本文探讨了在通过 API 端点调用时，使用猫鼬（Mongoose）的 findOne 方法总是返回 null 的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-12-25 17:40:33
instance
深入了解 Windows 窗体中的 SplitContainer 控件

SplitContainer 控件是 Windows 窗体中的一种复合控件，由两个可调整大小的面板和一个可移动的拆分条组成。本文将详细介绍其功能、属性以及如何通过编程方式创建复杂的用户界面。 ... [详细]

蜡笔小新 2024-12-25 17:20:08
join
Python编程基础练习题（进阶篇）

本文提供了一系列Python编程基础练习题，涵盖了列表操作、循环结构、字符串处理和元组特性等内容。通过这些练习题，读者可以巩固对Python语言的理解并提升编程技能。 ... [详细]

蜡笔小新 2024-12-25 13:42:47

榴莲味蛋筒

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章