【数据湖Hudi的概念】KeyGeneration和ConcurrencyControl

作者：asd54w464wq_212 | 来源：互联网 | 2023-09-18 10:51

目录1.KeyGeneration1.1SimpleKeyGenerator1.2ComplexKeyGenerator1.3NonPartitionedKeyGenerator1

Config	含义/目的
hoodie.datasource.write.recordkey.field	数据的key字段&＃xff0c;必须包含
hoodie.datasource.write.partitionpath.field	数据的partition字段&＃xff0c;必须包含
hoodie.datasource.write.keygenerator.class	full path的Key generator class&＃xff0c;必须包含
hoodie.datasource.write.partitionpath.urlencode	默认为false&＃xff0c;如果为true&＃xff0c;partition path将按url进行编码
hoodie.datasource.write.hive_style_partitioning	默认为false&＃xff0c;分区字段名称只有partition_field_value&＃xff0c;如果为true&＃xff0c;分区字段名称为&＃xff1a;partition_field_name&＃61;partition_field_value

1.1 SimpleKeyGenerator

将一个列转换成string类型&＃xff0c;作为分区字段名称

1.2 ComplexKeyGenerator

recordkey和partitionpath都将一个或多个字段作为key&＃xff0c;多个字段逗号分隔。比如"Hoodie.datasource.write.recordkey.field" : "col1,col3"

1.3 NonPartitionedKeyGenerator

如果表不是分区表&＃xff0c;使用NonPartitionedKeyGenerator&＃xff0c;生成一个empty “” partiiton

1.4 CustomKeyGenerator

可以同时使用SimpleKeyGenerator、ComplexKeyGenerator、TimestampBasedKeyGenerator

指定keygenerator.class

hoodie.datasource.write.keygenerator.class&＃61;org.apache.hudi.keygen.CustomKeyGenerator

指定recordkey&＃xff0c;可以是SimpleKeyGenerator或ComplexKeyGenerator

hoodie.datasource.write.recordkey.field&＃61;col1,col3

创建的record key格式为&＃xff1a;col1:value1,col3:value3

指定partitionpath&＃xff0c;格式为&＃xff1a;“field1:PartitionKeyType1,field2:PartitionKeyType2,…”&＃xff0c;PartitionKeyType的可选值为simple、timestamp

hoodie.datasource.write.partitionpath.field&＃61;col2:simple,col4:timestamp

HDFS上创建的分区路径为&＃xff1a;value2/value4

1.5 TimestampBasedKeyGenerator

这个key generator用于partition字段&＃xff0c;需要设置的配置如下&＃xff1a;

Config	含义/目录
hoodie.deltastreamer.keygen.timebased.timestamp.type	UNIX_TIMESTAMP、DATE_STRING、MIXED、EPOCHMILLISECONDS、SCALAR
hoodie.deltastreamer.keygen.timebased.output.dateformat	输出的date format
hoodie.deltastreamer.keygen.timebased.timezone	data format的Timezone
oodie.deltastreamer.keygen.timebased.input.dateformat	输入的date format

下面是使用的一些例子

Timestamp is GMT

Config字段	值
hoodie.deltastreamer.keygen.timebased.timestamp.type	“EPOCHMILLISECONDS”
hoodie.deltastreamer.keygen.timebased.output.dateformat	“yyyy-MM-dd hh”
hoodie.deltastreamer.keygen.timebased.timezone	“GMT&＃43;8:00”

输入字段值: “1578283932000L”&＃xff0c;生成的Partition path: “2020-01-06 12”

如果输入字段值为null&＃xff0c;生成的Partition path: “1970-01-01 08”

Timestamp is DATE_STRING

Config字段	值
hoodie.deltastreamer.keygen.timebased.timestamp.type	“DATE_STRING”
hoodie.deltastreamer.keygen.timebased.output.dateformat	“yyyy-MM-dd hh”
hoodie.deltastreamer.keygen.timebased.timezone	“GMT&＃43;8:00”
hoodie.deltastreamer.keygen.timebased.input.dateformat	“yyyy-MM-dd hh:mm:ss”

输入字段值: “2020-01-06 12:12:12”&＃xff0c;生成的Partition path: “2020-01-06 12”

如果输入字段值为null&＃xff0c;生成的Partition path: “1970-01-01 12:00:00”

Scalar examples

Config字段	值
hoodie.deltastreamer.keygen.timebased.timestamp.type	“SCALAR”
hoodie.deltastreamer.keygen.timebased.output.dateformat	“yyyy-MM-dd hh”
hoodie.deltastreamer.keygen.timebased.timezone	“GMT”
hoodie.deltastreamer.keygen.timebased.timestamp.scalar.time.unit	“days”
输入字段值: “20000L”&＃xff0c;生成的Partition path: “2024-10-04 12”

如果输入字段值为null&＃xff0c;生成的Partition path: “1970-01-02 12”

2. Concurrency Control

支持的方式&＃xff1a;

MVCC&＃xff1a;Hudi的table service&＃xff0c;如compaction、clean&＃xff0c;利用MVCC在写入和读取之间提供snapshot isolation。可以实现单一写入和并发读
OPTIMISTIC CONCURRENCY(experimental)&＃xff1a;实现并发写入&＃xff0c;需要Zookeeper或HiveMetastore获取locks的支持。如write_A写入file1和file2&＃xff0c;write_B写入file3和file4&＃xff0c;则两个write写入成功&＃xff1b;如write_A写入file1和file2&＃xff0c;write_B写入file2和file3&＃xff0c;则只能有一个write成功&＃xff0c;另一个write失败

Multi Writer Guarantees

upsert: 表不会有重复数据
insert: 即使开启dedup&＃xff0c;表也可能有重复数据
bulk_insert: 即使开启dedup&＃xff0c;表也可能有重复数据
incremental pull: Data consumption和checkpoints可能会乱序

推荐阅读

ip
linux网络子系统分析（二）—— 协议栈分层框架的建立

目录一、综述二、INET的初始化2.1INET接口注册2.2抽象实体的建立2.3代码细节分析2.3.1socket参数三、其他协议3.1PF_PACKET3.2P ... [详细]

蜡笔小新 2024-11-20 15:21:14
shell
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
ip
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
string
在Linux中获取库源码及编译软件时如何收集依赖项

本文介绍了如何在Linux系统中获取库源码，并在从源代码编译软件时收集所需的依赖项列表。 ... [详细]

蜡笔小新 2024-11-17 20:34:02
ip
CentOS下ProFTPD的安装与配置指南

本文详细介绍在CentOS操作系统上安装和配置ProFTPD服务的方法，包括基本配置、安全设置及高级功能的启用。 ... [详细]

蜡笔小新 2024-11-21 09:45:56
ip
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54
input
软通动力Java开发工程师笔试题解析

本文档详细介绍了软通动力Java开发工程师职位的笔试题目，涵盖了Java基础、集合框架、JDBC、JSP等内容，并提供了详细的答案解析。 ... [详细]

蜡笔小新 2024-11-20 13:34:48
string
Logging all MySQL queries into the Slow Log

MySQLoptionallylogsslowqueriesintotheSlowQueryLog–orjustSlowLog,asfriendscallit.However,Thereareseveralreasonstologallqueries.Thislistisnotexhaustive:Belowyoucanfindthevariablestochange,astheyshouldbewritteninth ... [详细]

蜡笔小新 2024-11-20 12:50:01
string
C# 中创建和执行存储过程的方法

本文详细介绍了如何使用 C# 创建和调用 SQL Server 存储过程，包括连接数据库、定义命令类型、设置参数等步骤。 ... [详细]

蜡笔小新 2024-11-19 19:55:59
string
Spring框架中UserLogDao Bean未定义异常分析与解决

本文详细探讨了Spring框架中遇到的NoSuchBeanDefinitionException异常，具体涉及com.thinkplatform.dao.UserLogDao Bean未定义的问题，并提供了相应的解决方案。 ... [详细]

蜡笔小新 2024-11-17 17:16:33
bit
编程语言概述与Python变量详解

本文介绍了编程语言的基本分类，包括机器语言、汇编语言和高级语言的特点及其优缺点。随后详细讲解了Python解释器的安装与配置方法，并探讨了Python变量的定义、使用及内存管理机制。 ... [详细]

蜡笔小新 2024-11-17 09:03:36
ip
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
ip
PMA 配置存储结构中缺少关键字

在尝试将 mysqldump 文件加载到新的 MySQL 服务器时，遇到因使用保留关键字 'table' 导致的语法错误。 ... [详细]

蜡笔小新 2024-11-15 19:35:06
ip
《Linux高性能服务器编程》深入解析：3.2 TCP报头结构与功能

在《Linux高性能服务器编程》一书中，第3.2节深入探讨了TCP报头的结构与功能。TCP报头是每个TCP数据段中不可或缺的部分，它不仅包含了源端口和目的端口的信息，还负责管理TCP连接的状态和控制。本节内容详尽地解析了TCP报头的各项字段及其作用，为读者提供了深入理解TCP协议的基础。 ... [详细]

蜡笔小新 2024-11-10 14:18:44
string
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18

asd54w464wq_212

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章