当前位置: 开发笔记 > 编程语言 > 正文

3000字入门数据湖(建议收藏)

作者：少年放肆的温存 | 来源：互联网 | 2023-07-03 19:21

一、数据湖的角色和定位随着移动互联网，物联网技术的发展，数据的应用逐渐从BI报表可视化往机器学习、预测分析等方向发展，即BI到AI的转变。

一、数据湖的角色和定位

随着移动互联网&＃xff0c;物联网技术的发展&＃xff0c;数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展&＃xff0c;即 BI 到 AI 的转变。

数据的使用者也从传统的业务分析人员转为数据科学家&＃xff0c;算法工程师。此外对数据的实时性要求越来越高&＃xff0c;也出现了越来越多的非结构化的数据。

目前的数据仓库技术出现了一定的局限性&＃xff0c;比如单一不变的 schema 和模型已经无法满足各类不同场景和领域的数据分析的要求&＃xff0c;并且数据科学家更愿意自己去处理原始的数据&＃xff0c;而不是直接使用被处理过的数据。

比如对于数据缺失这种情况&＃xff0c;数据科学家会尝试各种不同的算法去弥补缺失数据&＃xff0c;针对不同的业务场景也会有不同的处理方式。

目前数据湖相关的技术是业界针对这些问题的一种解决方案。

下表展示了数据仓库和数据湖在各个维度上的特性&＃xff1a;

相比于数据仓库&＃xff0c;数据湖会保留最原始的数据&＃xff0c;并且是读取时确定 Schema&＃xff0c;这样可以在业务发生变化时能灵活调整。

最原始的数据湖技术其实就是对象存储&＃xff0c;比如 Amazon S3&＃xff0c;Aliyun OSS&＃xff0c;可以存储任意形式的原始数据&＃xff0c;但是如果不对这些存储的原始文件加以管理&＃xff0c;就会使数据湖退化成数据沼泽&＃xff08;dataswamp)。

所以必须有相关的技术发展来解决这些问题。

我们都知道一个大数据处理系统分为&＃xff1a;

分布式文件系统&＃xff1a;HDFS&＃xff0c;S3
基于一定的文件格式将文件存储在分布式文件系统&＃xff1a;Parquet&＃xff0c;ORC&＃xff0c; ARVO
用来组织文件的元数据系统&＃xff1a;Metastore
处理文件的计算引擎&＃xff0c;包括流处理和批处理&＃xff1a;SPARK&＃xff0c;FLINK

简单的说&＃xff0c;数据湖技术是计算引擎和底层存储格式之间的一种数据组织格式&＃xff0c;用来定义数据、元数据的组织方式。

目前并没有针对数据湖的比较成熟的解决方案&＃xff0c;几个大厂在开发相关技术来解决内部遇到的一些痛点后&＃xff0c;开源了几个项目&＃xff0c;比较著名的有Databrics 的 Dalta Lake&＃xff0c;Uber 开源的 Hudi&＃xff0c;Netflix 开源的 Iceberg。

二、Delta Lake

传统的 lambda 架构需要同时维护批处理和流处理两套系统&＃xff0c;资源消耗大&＃xff0c;维护复杂。

基于 Hive 的数仓或者传统的文件存储格式&＃xff08;比如 parquet / ORC&＃xff09;&＃xff0c;都存在一些难以解决的问题&＃xff1a;

小文件问题&＃xff1b;
并发读写问题&＃xff1b;
有限的更新支持&＃xff1b;
海量元数据&＃xff08;例如分区&＃xff09;导致 metastore 不堪重负

如上图&＃xff0c;Delta Lake 是 Spark 计算框架和存储系统之间带有 Schema 信息的存储中间层。

它有一些重要的特性&＃xff1a;

设计了基于 HDFS 存储的元数据系统&＃xff0c;解决 metastore 不堪重负的问题&＃xff1b;
支持更多种类的更新模式&＃xff0c;比如 Merge / Update / Delete 等操作&＃xff0c;配合流式写入或者读取的支持&＃xff0c;让实时数据湖变得水到渠成&＃xff1b;
流批操作可以共享同一张表&＃xff1b;
版本概念&＃xff0c;可以随时回溯&＃xff0c;避免一次误操作或者代码逻辑而无法恢复的灾难性后果。

Delta Lake 是基于 Parquet 的存储层&＃xff0c;所有的数据都是使用 Parquet 来存储&＃xff0c;能够利用 parquet 原生高效的压缩和编码方案。

Delta Lake 在多并发写入之间提供 ACID 事务保证。每次写入都是一个事务&＃xff0c;并且在事务日志中记录了写入的序列顺序。

事务日志跟踪文件级别的写入并使用乐观并发控制&＃xff0c;这非常适合数据湖&＃xff0c;因为多次写入/修改相同的文件很少发生。在存在冲突的情况下&＃xff0c;Delta Lake 会抛出并发修改异常以便用户能够处理它们并重试其作业。

Delta Lake 其实只是一个 Lib 库&＃xff0c;不是一个 service&＃xff0c;不需要单独部署&＃xff0c;而是直接依附于计算引擎的&＃xff0c;但目前只支持 spark 引擎&＃xff0c;使用过程中和 parquet 唯一的区别是把 format parquet 换成 delta 即可&＃xff0c;可谓是部署和使用成本极低。

三、Apache Hudi

Hudi 是什么一般来说&＃xff0c;我们会将大量数据存储到HDFS/S3&＃xff0c;新数据增量写入&＃xff0c;而旧数据鲜有改动&＃xff0c;特别是在经过数据清洗&＃xff0c;放入数据仓库的场景。

且在数据仓库如 hive中&＃xff0c;对于update的支持非常有限&＃xff0c;计算昂贵。另一方面&＃xff0c;若是有仅对某段时间内新增数据进行分析的场景&＃xff0c;则hive、presto、hbase等也未提供原生方式&＃xff0c;而是需要根据时间戳进行过滤分析。

Apache Hudi 代表 Hadoop Upserts anD Incrementals&＃xff0c;能够使HDFS数据集在分钟级的时延内支持变更&＃xff0c;也支持下游系统对这个数据集的增量处理。

Hudi数据集通过自定义的 nputFormat 兼容当前 Hadoop 生态系统&＃xff0c;包括 Apache Hive&＃xff0c;Apache Parquet&＃xff0c;Presto 和 Apache Spark&＃xff0c;使得终端用户可以无缝的对接。

如下图&＃xff0c;基于 Hudi 简化的服务架构&＃xff0c;分钟级延迟。

Hudi 存储的架构

如上图&＃xff0c;最下面有一个时间轴&＃xff0c;这是 Hudi 的核心。

Hudi 会维护一个时间轴&＃xff0c;在每次执行操作时&＃xff08;如写入、删除、合并等&＃xff09;&＃xff0c;均会带有一个时间戳。

通过时间轴&＃xff0c;可以实现在仅查询某个时间点之后成功提交的数据&＃xff0c;或是仅查询某个时间点之前的数据。

这样可以避免扫描更大的时间范围&＃xff0c;并非常高效地只消费更改过的文件&＃xff08;例如在某个时间点提交了更改操作后&＃xff0c;仅 query 某个时间点之前的数据&＃xff0c;则仍可以 query 修改前的数据&＃xff09;。

如上图的左边&＃xff0c;Hudi 将数据集组织到与 Hive 表非常相似的基本路径下的目录结构中。

数据集分为多个分区&＃xff0c;每个分区均由相对于基本路径的分区路径唯一标识。

如上图的中间部分&＃xff0c;Hudi 以两种不同的存储格式存储所有摄取的数据。

读优化的列存格式&＃xff08;ROFormat&＃xff09;&＃xff1a;仅使用列式文件&＃xff08;parquet&＃xff09;存储数据。在写入/更新数据时&＃xff0c;直接同步合并原文件&＃xff0c;生成新版本的基文件&＃xff08;需要重写整个列数据文件&＃xff0c;即使只有一个字节的新数据被提交&＃xff09;。此存储类型下&＃xff0c;写入数据非常昂贵&＃xff0c;而读取的成本没有增加&＃xff0c;所以适合频繁读的工作负载&＃xff0c;因为数据集的最新版本在列式文件中始终可用&＃xff0c;以进行高效的查询。
写优化的行存格式&＃xff08;WOFormat&＃xff09;&＃xff1a;使用列式&＃xff08;parquet&＃xff09;与行式&＃xff08;avro&＃xff09;文件组合&＃xff0c;进行数据存储。在更新记录时&＃xff0c;更新到增量文件中&＃xff08;avro&＃xff09;&＃xff0c;然后进行异步&＃xff08;或同步&＃xff09;的compaction&＃xff0c;创建列式文件&＃xff08;parquet&＃xff09;的新版本。此存储类型适合频繁写的工作负载&＃xff0c;因为新记录是以appending 的模式写入增量文件中。但是在读取数据集时&＃xff0c;需要将增量文件与旧文件进行合并&＃xff0c;生成列式文件。

四、Apache Iceberg

Iceberg 作为新兴的数据湖框架之一&＃xff0c;开创性的抽象出“表格式”table format&＃xff09;这一中间层&＃xff0c;既独立于上层的计算引擎&＃xff08;如Spark和Flink&＃xff09;和查询引擎&＃xff08;如Hive和Presto&＃xff09;&＃xff0c;也和下层的文件格式&＃xff08;如Parquet&＃xff0c;ORC和Avro&＃xff09;相互解耦。

此外 Iceberg 还提供了许多额外的能力&＃xff1a;

ACID事务&＃xff1b;
时间旅行&＃xff08;time travel&＃xff09;&＃xff0c;以访问之前版本的数据&＃xff1b;
完备的自定义类型、分区方式和操作的抽象&＃xff1b;
列和分区方式可以进化&＃xff0c;而且进化对用户无感&＃xff0c;即无需重新组织或变更数据文件&＃xff1b;
隐式分区&＃xff0c;使SQL不用针对分区方式特殊优化&＃xff1b;
面向云存储的优化等&＃xff1b;

Iceberg的架构和实现并未绑定于某一特定引擎&＃xff0c;它实现了通用的数据组织格式&＃xff0c;利用此格式可以方便地与不同引擎&＃xff08;如Flink、Hive、Spark&＃xff09;对接。

所以 Iceberg 的架构更加的优雅&＃xff0c;对于数据格式、类型系统有完备的定义和可进化的设计。

但是 Iceberg 缺少行级更新、删除能力&＃xff0c;这两大能力是现有数据组织最大的卖点&＃xff0c;社区仍然在优化中。

五、总结

下表从各个维度&＃xff0c;总结了三大数据湖框架支持的特性。

如果用一个比喻来说明delta、iceberg、hudi、三者差异的话&＃xff0c;可以把三个项目比做建房子。

Delta的房子底座相对结实&＃xff0c;功能楼层也建得相对比较高&＃xff0c;但这个房子其实可以说是databricks的&＃xff0c;本质上是为了更好地壮大Spark生态&＃xff0c;在delta上其他的计算引擎难以替换Spark的位置&＃xff0c;尤其是写入路径层面。
Iceberg的建筑基础非常扎实&＃xff0c;扩展到新的计算引擎或者文件系统都非常的方便&＃xff0c;但是现在功能楼层相对低一点&＃xff0c;目前最缺的功能就是upsert和compaction两个&＃xff0c;Iceberg社区正在以最高优先级推动这两个功能的实现。
Hudi的情况要相对不一样&＃xff0c;它的建筑基础设计不如iceberg结实&＃xff0c;举个例子&＃xff0c;如果要接入Flink作为Sink的话&＃xff0c;需要把整个房子从底向上翻一遍&＃xff0c;把接口抽象出来&＃xff0c;同时还要考虑不影响其他功能&＃xff0c;当然Hudi的功能楼层还是比较完善的&＃xff0c;提供的upsert和compaction功能直接命中广大群众的痛点。

--end--扫描下方二维码添加好友&＃xff0c;备注【交流】可私聊交流&＃xff0c;也可进资源丰富学习群

推荐阅读

post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
int
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
int
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
jsp
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21
jsp
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
jsp
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32
jsp
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
jsp
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
search
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
jsp
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
int
利用ZFS和Gluster实现分布式存储系统的高效迁移与应用

本文探讨了在Ubuntu 18.04系统中利用ZFS和Gluster文件系统实现分布式存储系统的高效迁移与应用。通过详细的技术分析和实践案例，展示了这两种文件系统在数据迁移、高可用性和性能优化方面的优势，为分布式存储系统的部署和管理提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-08 17:18:57
object
REST与RPC：选择哪种API架构风格？

在探讨REST与RPC这两种API架构风格的选择时，本文首先介绍了RPC（远程过程调用）的概念。RPC允许客户端通过网络调用远程服务器上的函数或方法，从而实现分布式系统的功能调用。相比之下，REST（Representational State Transfer）则基于资源的交互模型，通过HTTP协议进行数据传输和操作。本文将详细分析两种架构风格的特点、适用场景及其优缺点，帮助开发者根据具体需求做出合适的选择。 ... [详细]

蜡笔小新 2024-11-07 12:00:58
int
Elasticsearch 写入与查询的底层机制解析

本文深入解析了Elasticsearch写入与查询的底层机制。在数据写入过程中，首先会将数据暂存至内存缓冲区，在此阶段数据尚不可被搜索。同时，为了保证数据的持久性和可靠性，系统会将这些数据同步记录到事务日志（translog）中。当内存缓冲区接近满载时，系统会触发刷新操作，将缓冲区中的数据写入到磁盘上的段文件中，从而使其可被搜索。此外，文章还探讨了查询过程中涉及的索引分片、倒排索引等关键技术，为读者提供了全面的技术理解。 ... [详细]

蜡笔小新 2024-11-04 19:00:33
int
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
int
以Flink为例，消除流处理常见的六大谬见

以Flink为例，消除流处理常见的六大谬见 ... [详细]

蜡笔小新 2024-10-08 12:59:58

少年放肆的温存

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章