数据湖使用分享

作者：鹏 | 来源：互联网 | 2023-08-07 14:36

1引入背景：目前我们实时接入binlog，用的是kudu，但kudu对大事务支持不好，关键成本比较高，大数据加胜同学建议尝试数据湖，从而开始了数据湖的探索。后续与培殿同学一直配合跟

1 引入背景：

目前我们实时接入binlog，用的是kudu，但kudu对大事务支持不好，关键成本比较高，大数据加胜同学建议尝试数据湖，从而开始了数据湖的探索。后续与培殿同学一直配合跟进数据湖，发掘出数据湖更多功能，用于生产。

2 数据湖基本概念

本质来讲，数据湖是一个关于存储的设计模式

2.1 数据湖基础概念snapshot

snapshot是iceberg比较重要的概念。Iceberg 基于MVCC（Multi-Version Concurrency Control）设计，每次commit都会生成一个快照（Snapshot），该快照包含唯一的snapshotId、时间戳timestamp及对应的manifest文件。

如下图所示，最新 snapshot 拥有该表的全局视图，每个snapshot包含多个manifest文件，每个manifest文件中记录本次事务中记录写入文件与分区的对应关系，且包含一些文件记录的统计信息（如lower_bound、upper_bound、added_rows_count、deleted_rows_count）用来快速筛选文件。一定程度上可以把 manifest 文件理解为索引文件。

基于Snapshot的设计，用户需要通过snapshot来访问iceberg中的数据，如果数据写入但没有commit成功，就不会生成新的snapshot，也因此不会访问到这部分不完整数据。

3 根据数据湖特点，我们能做什么事情

头脑风暴时刻，它有什么特性，为什么要引入，引入到底能解决什么问题

3.1 支持事务，行级别更新

利用这个特性，我们可以：

flink实时cdc

对于实时数仓，我们可以用更好的离线修复，做到万无一失

同时也可代替kudu，节约成本，提高实时性

3.2 去分区概念，小文件问题

iceberg使用不用care分区，解决hive分区痛点，hive如果不添加分区，可能造成灾难性的后果。iceberg有类似分桶概念，且后台可自助合并数据

对使用方更友好，直接给我表名完了呗，干啥又让我知道分区概念

3.3 实时兼容更好，生态形式

一个新组件的前景，可以从其特性与依赖的生态来推测。iceberg上接计算引擎，下接底层存储hdfs，像kudu就是自己搞的一套，提高读性能，牺牲写性能，定位介于hdfs，hadoop之间。

3.4 读写分离

基于snapshot，如果读写同时进行，当前写snapshot没有完成commit，读不可见，但可以读历史snapshot

3.5 schema动态切换

主要为更改schema结构，对非结构化数据比较好

3.6 统一存储

底层存储统一用iceberg，代替hive

二我们的使用与规划

不支持在 Docs 外粘贴 block

引入数据湖，首先需要解决与优化目前已有的痛问题为切入点去推动数据湖，随着使用的积累，可优化目前的实时架构。

两个能落地的项目

1 简化同步实时链路

前几版大致介绍，中间结果（timetravel spark找），最新版本介绍

1.1 监控hdfs路径

flink监控hdfs路径，只要这个路径下面有新增文件即同步。有几个缺点，读只有一个并发，新增与删除是两个流；对于重新回溯数据不太友好，需要删除所有数据；

1.2 基于talos，解决以上缺点

SparkStreaming 常驻进程写talos

Flink读取talos，通过状态对比，只发送更新或者新增数据

Binlog数据实时入kudu，hive与kudu表格对比找到删除数据；但kudu有延时，事务等问题

链路多了，数据量大了，各种问题就会被慢慢放大

1.3 中间过渡版本

数据湖支持timetravel，每个snapshot的数据都可以拿到，通过前后两个snapshot对比就可以拿到差异数据。不过目前不支持sql 方式，需要写代码解决

1.4 实时同步第三版

不支持在 Docs 外粘贴 block

经过多天运行后，事实如下：

flink可直接读取到变化数据，直接同步到下游

2 实时数仓

构建实时数仓的两种方式

1 cdc入湖，实时更强

cdc目前有两种方式mysql或者talos

1.1直连mysql方式

目前有集群白名单问题，不过感觉加个代理也可以解决

1.2 talos方式：自己生成或者已经授权的Talos

如果是我们自己的库比较方便，但其它业务业务系统，一般我们拿不到mysql连接，对方更愿暴露talos。

目前公司主要使用的方式，采集binlog到talos，再入kudu或者iceberg。

重新回溯数据一般采用置位删除

一般在建表之初直接采集binlog，如果后期，数据量太大，初始化会有几分钟的延迟

2 基于已有表格

基于其它已经表格之上构建实时数仓，得益于大数据培殿同学大力支持，我们可以自己使用merge into构建cdc数据

原理：

merge into 新语法+iceberg V2表格=带有新增，删除，更新功能的表格

数据生成：

新beeline(类似miquery) 读取hive等数据，使用merge into 语法，写入到iceberg

对于公共模块在精减ing，减少冗余

3 另外数据湖支持事务，可离线进行校正

不支持在 Docs 外粘贴 block

底层直接使用merge into，后面ads表格根据底层聚合后，也能识别，所以不需要再使用merge into，直写sql即可

三切换步骤

1 队列改造

2 建表语句与sql改造

3 build脚本改造，能公用的都公用，去除重复劳动，

4 beeline 采用token方式，也没有了kerberos问题

推荐阅读

php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
list
Spring框架的核心组件与架构解析

Spring框架的核心组件与架构解析 ... [详细]

蜡笔小新 2024-11-06 14:16:03
hash
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
hash
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
utf-8
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
utf-8
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
utf-8
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
utf-8
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
go
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
foreach
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
go
JVM上高性能数据格式库包Apache Arrow入门和架构的示例分析

小编给大家分享一下JVM上高性能数据格式库包ApacheArrow入门和架构的示例分析，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！Apac ... [详细]

蜡笔小新 2024-10-21 17:23:18
php
以Flink为例，消除流处理常见的六大谬见

以Flink为例，消除流处理常见的六大谬见 ... [详细]

蜡笔小新 2024-10-08 12:59:58
list
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
go
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
tags
开源社区Git操作

前言本篇为大家总结社区多人合作常见的场景和对应的git操作命令。本篇非新手教程，阅读本篇前需具备Git基础知识。Git入门教程请参考https://www ... [详细]

蜡笔小新 2023-10-15 16:02:32

鹏

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章