Hudi数据管理和存储概述

作者：羚之舞 | 来源：互联网 | 2023-09-04 17:40

半岛铁子_数据管理.hoodieamricas和asiaHudi存储概述Metadata元数据Index索引Data数据参考资料：数据管理**Hudi是如何管理数据&

半岛铁子_

数据管理
.hoodie
amricas和asia
Hudi存储概述
Metadata 元数据
Index 索引
Data 数据
参考资料&＃xff1a;
数据管理
**Hudi 是如何管理数据&＃xff1f; **

使用表Table形式组织数据&＃xff0c;并且每张表中数据类似Hive分区表&＃xff0c;按照分区字段划分数据到不同目录中&＃xff0c; 每条数据有主键PrimaryKey&＃xff0c;标识数据唯一性。

Hudi 数据管理

Hudi表的数据文件&＃xff0c;可以使用操作系统的文件系统存储&＃xff0c;也可以使用HDFS这种分布式的文件系统存储。为了分析性能和数据的可靠性&＃xff0c;一般使用HDFS进行存储。以HDFS存储来看&＃xff0c;一个Hudi表的存储文件分为两类。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YvuTlmxp-1654782269035)(C:\Users\Husheng\Desktop\大数据框架学习\image-20220609205143126.png)]$

.hoodie
&＃xff08;1&＃xff09;.hoodie 文件&＃xff1a;由于CRUD的零散性&＃xff0c;每一次的操作都会生成一个文件&＃xff0c;这些小文件越来越多后&＃xff0c;会严重影响HDFS的性能&＃xff0c;Hudi设计了一套文件合并机制。 .hoodie文件夹中存放了对应的文件合并操作相关的日志文件。

Hudi把随着时间流逝&＃xff0c;对表的一系列CRUD操作叫做Timeline&＃xff0c;Timeline中某一次的操作&＃xff0c;叫做Instant。

Instant Action&＃xff0c;记录本次操作是一次数据提交&＃xff08;COMMITS&＃xff09;&＃xff0c;还是文件合并&＃xff08;COMPACTION&＃xff09;&＃xff0c;或者是文件清理&＃xff08;CLEANS&＃xff09;&＃xff1b;
Instant Time&＃xff0c;本次操作发生的时间&＃xff1b;
State&＃xff0c;操作的状态&＃xff0c;发起(REQUESTED)&＃xff0c;进行中(INFLIGHT)&＃xff0c;还是已完成(COMPLETED)&＃xff1b;

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Glv0pMg-1654782269036)(C:\Users\Husheng\Desktop\大数据框架学习\image-20220609205512376.png)]$
amricas和asia
&＃xff08;2&＃xff09;amricas和asia相关的路径是实际的数据文件&＃xff0c;按分区存储&＃xff0c;分区的路径key是可以指定的。

Hudi真实的数据文件使用Parquet文件格式存储&＃xff1b;
其中包含一个metadata元数据文件和数据文件parquet列式存储。
Hudi为了实现数据的CRUD&＃xff0c;需要能够唯一标识一条记录&＃xff0c;Hudi将把数据集中的唯一字段(record key ) &＃43; 数据所在分区 (partitionPath) 联合起来当做数据的唯一键。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vkMLkqhU-1654782269037)(C:\Users\Husheng\Desktop\大数据框架学习\image-20220609205849955.png)]$

Hudi存储概述
Hudi数据集的组织目录结构与Hive表示非常相似&＃xff0c;一份数据集对应这一个根目录。数据集被打散为多个分区&＃xff0c;分区字段以文件夹形式存在&＃xff0c;该文件夹包含该分区的所有文件。

在根目录下&＃xff0c;每个分区都有唯一的分区路径&＃xff0c;每个分区数据存储在多个文件中。

每个文件都有惟一的fileId和生成文件的commit所标识。如果发生更新操作时&＃xff0c;多个文件共享相同的fileId&＃xff0c;但会有不同的commit。

Metadata 元数据
以时间轴&＃xff08;timeline&＃xff09;的形式将数据集上的各项操作元数据维护起来&＃xff0c;以支持数据集的瞬态视图&＃xff0c;这部分元数据存储于根目录下的元数据目录。一共有三种类型的元数据&＃xff1a;
Commits&＃xff1a;一个单独的commit包含对数据集之上一批数据的一次原子写入操作的相关信息。我们用单调递增的时间戳来标识 commits&＃xff0c;标定的是一次写入操作的开始。
Cleans&＃xff1a;用于清除数据集中不再被查询所用到的旧版本文件的后台活动。
Compactions&＃xff1a;用于协调Hudi内部的数据结构差异的后台活动。例如&＃xff0c;将更新操作由基于行存的日志文件归集到列存数据上。
Index 索引
Hudi维护着一个索引&＃xff0c;以支持在记录key存在情况下&＃xff0c;将新记录的key快速映射到对应的fileId。
Bloom filter&＃xff1a;存储于数据文件页脚。默认选项&＃xff0c;不依赖外部系统实现。数据和索引始终保持一致。
Apache HBase &＃xff1a;可高效查找一小批key。在索引标记期间&＃xff0c;此选项可能快几秒钟。

Data 数据
Hudi以两种不同的存储格式存储所有摄取的数据&＃xff0c;用户可选择满足下列条件的任意数据格式&＃xff1a;

读优化的列存格式&＃xff08;ROFormat&＃xff09;&＃xff1a; 缺省值为Apache Parquet&＃xff1b;

写优化的行存格式&＃xff08;WOFormat&＃xff09;&＃xff1a; 缺省值为Apache Avro

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-asupbZiT-1654782269037)(C:\Users\Husheng\Desktop\大数据框架学习\image-20220609210931450.png)]$

参考资料&＃xff1a;
https://www.bilibili.com/video/BV1sb4y1n7hK?p&＃61;16&spm_id_from&＃61;pageDriver&vd_source&＃61;e21134e00867aeadc3c6b37bb38b9eee

推荐阅读

io
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
io
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
io
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
io
在Kubernetes上部署多个Mitmproxy代理服务器以实现高效流量管理

在Kubernetes上部署多个Mitmproxy代理服务器以实现高效流量管理 ... [详细]

蜡笔小新 2024-11-03 14:38:15
text
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
io
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
go
分布式一致性算法：Paxos 的企业级实战

一、简介首先我们这个平台是ES专题技术的分享平台，众所周知，ES是一个典型的分布式系统。在工作和学习中，我们可能都已经接触和学习过多种不同的分布式系统了，各 ... [详细]

蜡笔小新 2024-10-21 16:29:21
io
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
io
Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？

Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？ ... [详细]

蜡笔小新 2024-11-08 09:25:06
io
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
io
Python 实战：异步爬虫（协程技术）与分布式爬虫（多进程应用）深入解析

本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节，重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理，帮助读者理解两者在性能和资源利用上的差异，从而在实际项目中做出更合适的选择。文章还将结合具体案例，展示如何高效地实现异步和分布式爬虫，以提升数据抓取的效率和稳定性。 ... [详细]

蜡笔小新 2024-11-05 14:12:56
io
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
io
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
io
nginx 代理缓存

nginxproxy缓存简介转自：https:mp.weixin.qq.comsDRTWuwiB6gdrRVEP6UWBAgnginx将用户已经访问过的内容保留在ng ... [详细]

蜡笔小新 2024-10-16 18:33:33

羚之舞

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章