数据湖（二）

作者：事过人空 | 来源：互联网 | 2023-08-16 10:53

数据湖的基本架构数据湖可以认为是新一代的大数据基础设施。为了更好的理解数据湖的基本架构，我们先来看看大数据基础设施架构的演进过程。1）第一阶段&#x

数据湖的基本架构

数据湖可以认为是新一代的大数据基础设施。为了更好的理解数据湖的基本架构&＃xff0c;我们先来看看大数据基础设施架构的演进过程。

1&＃xff09; 第一阶段&＃xff1a;以Hadoop为代表的离线数据处理基础设施。如下图所示&＃xff0c;Hadoop是以HDFS为核心存储&＃xff0c;以MapReduce&＃xff08;简称MR&＃xff09;为基本计算模型的批量数据处理基础设施。围绕HDFS和MR&＃xff0c;产生了一系列的组件&＃xff0c;不断完善整个大数据平台的数据处理能力&＃xff0c;例如面向在线KV操作的HBase、面向SQL的HIVE、面向工作流的PIG等。同时&＃xff0c;随着大家对于批处理的性能要求越来越高&＃xff0c;新的计算模型不断被提出&＃xff0c;产生了Tez、Spark、Presto等计算引擎&＃xff0c;MR模型也逐渐进化成DAG模型。DAG模型一方面&＃xff0c;增加计算模型的抽象并发能力&＃xff1a;对每一个计算过程进行分解&＃xff0c;根据计算过程中的聚合操作点对任务进行逻辑切分&＃xff0c;任务被切分成一个个的stage&＃xff0c;每个stage都可以有一个或者多个Task组成&＃xff0c;Task是可以并发执行的&＃xff0c;从而提升整个计算过程的并行能力&＃xff1b;另一方面&＃xff0c;为减少数据处理过程中的中间结果写文件操作&＃xff0c;Spark、Presto等计算引擎尽量使用计算节点的内存对数据进行缓存&＃xff0c;从而提高整个数据过程的效率和系统吞吐能力。
在这里插入图片描述

2&＃xff09; 第二阶段&＃xff1a;lambda架构。随着数据处理能力和处理需求的不断变化&＃xff0c;越来越多的用户发现&＃xff0c;批处理模式无论如何提升性能&＃xff0c;也无法满足一些实时性要求高的处理场景&＃xff0c;流式计算引擎应运而生&＃xff0c;例如Storm、Spark Streaming、Flink等。然而&＃xff0c;随着越来越多的应用上线&＃xff0c;大家发现&＃xff0c;其实批处理和流计算配合使用&＃xff0c;才能满足大部分应用需求&＃xff1b;而对于用户而言&＃xff0c;其实他们并不关心底层的计算模型是什么&＃xff0c;用户希望无论是批处理还是流计算&＃xff0c;都能基于统一的数据模型来返回处理结果&＃xff0c;于是Lambda架构被提出&＃xff0c;如下图所示。在这里插入图片描述

Lambda架构的核心理念是“流批一体”&＃xff0c;如上图所示&＃xff0c;整个数据流向自左向右流入平台。进入平台后一分为二&＃xff0c;一部分走批处理模式&＃xff0c;一部分走流式计算模式。无论哪种计算模式&＃xff0c;最终的处理结果都通过服务层对应用提供&＃xff0c;确保访问的一致性。

3&＃xff09; 第三阶段&＃xff1a;Kappa架构。Lambda架构解决了应用读取数据的一致性问题&＃xff0c;但是“流批分离”的处理链路增大了研发的复杂性。因此&＃xff0c;有人就提出能不能用一套系统来解决所有问题。目前比较流行的做法就是基于流计算来做。流计算天然的分布式特征&＃xff0c;注定了他的扩展性更好。通过加大流计算的并发性&＃xff0c;加大流式数据的“时间窗口”&＃xff0c;来统一批处理与流式处理两种计算模式。
在这里插入图片描述

综上&＃xff0c;从传统的hadoop架构往lambda架构&＃xff0c;从lambda架构往Kappa架构的演进&＃xff0c;大数据平台基础架构的演进逐渐囊括了应用所需的各类数据处理能力&＃xff0c;大数据平台逐渐演化成了一个企业/组织的全量数据处理平台。当前的企业实践中&＃xff0c;除了关系型数据库依托于各个独立的业务系统&＃xff1b;其余的数据&＃xff0c;几乎都被考虑纳入大数据平台来进行统一的处理。然而&＃xff0c;目前的大数据平台基础架构&＃xff0c;都将视角锁定在了存储和计算&＃xff0c;而忽略了对于数据的资产化管理&＃xff0c;这恰恰是数据湖作为新一代的大数据基础设施所重点关注的方向之一。

曾经看过一个很有意思的文章&＃xff0c;提出过如下问题&＃xff1a;数据湖为什么叫数据湖而不叫数据河或者数据海&＃xff1f;一个有意思的回答是&＃xff1a;

1&＃xff09;“河”强调的是流动性&＃xff0c;“海纳百川”&＃xff0c;河终究是要流入大海的&＃xff0c;而企业级数据是需要长期沉淀的&＃xff0c;因此叫“湖”比叫“河”要贴切&＃xff1b;同时&＃xff0c;湖水天然是分层的&＃xff0c;满足不同的生态系统要求&＃xff0c;这与企业建设统一数据中心&＃xff0c;存放管理数据的需求是一致的&＃xff0c;“热”数据在上层&＃xff0c;方便应用随时使用&＃xff1b;温数据、冷数据位于数据中心不同的存储介质中&＃xff0c;达到数据存储容量与成本的平衡。

2&＃xff09;不叫“海”的原因在于&＃xff0c;海是无边无界的&＃xff0c;而“湖”是有边界的&＃xff0c;这个边界就是企业/组织的业务边界&＃xff1b;因此数据湖需要更多的数据管理和权限管理能力。

3&＃xff09;叫“湖”的另一个重要原因是数据湖是需要精细治理的&＃xff0c;一个缺乏管控、缺乏治理的数据湖最终会退化为“数据沼泽”&＃xff0c;从而使应用无法有效访问数据&＃xff0c;使存于其中的数据失去价值。

大数据基础架构的演进&＃xff0c;其实反应了一点&＃xff1a;在企业/组织内部&＃xff0c;数据是一类重要资产已经成为了共识&＃xff1b;为了更好的利用数据&＃xff0c;企业/组织需要对数据资产1&＃xff09;进行长期的原样存储&＃xff1b;2&＃xff09;进行有效管理与集中治理&＃xff1b;3&＃xff09;提供多模式的计算能力满足处理需求&＃xff1b;4&＃xff09;以及面向业务&＃xff0c;提供统一的数据视图、数据模型与数据处理结果。数据湖就是在这个大背景下产生的&＃xff0c;除了大数据平台所拥有的各类基础能力之外&＃xff0c;数据湖更强调对于数据的管理、治理和资产化能力。落到具体的实现上&＃xff0c;数据湖需要包括一系列的数据管理组件&＃xff0c;包括&＃xff1a;1&＃xff09;数据接入&＃xff1b;2&＃xff09;数据搬迁&＃xff1b;3&＃xff09;数据治理&＃xff1b;4&＃xff09;质量管理&＃xff1b;5&＃xff09;资产目录&＃xff1b;6&＃xff09;访问控制&＃xff1b;7&＃xff09;任务管理&＃xff1b;8&＃xff09;任务编排&＃xff1b;9&＃xff09;元数据管理等。如下图所示&＃xff0c;给出了一个数据湖系统的参考架构。对于一个典型的数据湖而言&＃xff0c;它与大数据平台相同的地方在于它也具备处理超大规模数据所需的存储和计算能力&＃xff0c;能提供多模式的数据处理能力&＃xff1b;增强点在于数据湖提供了更为完善的数据管理能力&＃xff0c;具体体现在&＃xff1a;

1&＃xff09; 更强大的数据接入能力。数据接入能力体现在对于各类外部异构数据源的定义管理能力&＃xff0c;以及对于外部数据源相关数据的抽取迁移能力&＃xff0c;抽取迁移的数据包括外部数据源的元数据与实际存储的数据。

2&＃xff09; 更强大的数据管理能力。管理能力具体又可分为基本管理能力和扩展管理能力。基本管理能力包括对各类元数据的管理、数据访问控制、数据资产管理&＃xff0c;是一个数据湖系统所必须的&＃xff0c;后面我们会在“各厂商的数据湖解决方案”一节相信讨论各个厂商对于基本管理能力的支持方式。扩展管理能力包括任务管理、流程编排以及与数据质量、数据治理相关的能力。任务管理和流程编排主要用来管理、编排、调度、监测在数据湖系统中处理数据的各类任务&＃xff0c;通常情况下&＃xff0c;数据湖构建者会通过购买/研制定制的数据集成或数据开发子系统/模块来提供此类能力&＃xff0c;定制的系统/模块可以通过读取数据湖的相关元数据&＃xff0c;来实现与数据湖系统的融合。而数据质量和数据治理则是更为复杂的问题&＃xff0c;一般情况下&＃xff0c;数据湖系统不会直接提供相关功能&＃xff0c;但是会开放各类接口或者元数据&＃xff0c;供有能力的企业/组织与已有的数据治理软件集成或者做定制开发。

3&＃xff09; 可共享的元数据。数据湖中的各类计算引擎会与数据湖中的数据深度融合&＃xff0c;而融合的基础就是数据湖的元数据。好的数据湖系统&＃xff0c;计算引擎在处理数据时&＃xff0c;能从元数据中直接获取数据存储位置、数据格式、数据模式、数据分布等信息&＃xff0c;然后直接进行数据处理&＃xff0c;而无需进行人工/编程干预。更进一步&＃xff0c;好的数据湖系统还可以对数据湖中的数据进行访问控制&＃xff0c;控制的力度可以做到“库表列行”等不同级别。

在这里插入图片描述

还有一点应该指出的是&＃xff0c;上图的“集中式存储”更多的是业务概念上的集中&＃xff0c;本质上是希望一个企业/组织内部的数据能在一个明确统一的地方进行沉淀。事实上&＃xff0c;数据湖的存储应该是一类可按需扩展的分布式文件系统&＃xff0c;大多数数据湖实践中也是推荐采用S3/OSS/OBS/HDFS等分布式系统作为数据湖的统一存储。

我们可以再切换到数据维度&＃xff0c;从数据生命周期的视角来看待数据湖对于数据的处理方式&＃xff0c;数据在数据湖中的整个生命周期如图6所示。理论上&＃xff0c;一个管理完善的数据湖中的数据会永久的保留原始数据&＃xff0c;同时过程数据会不断的完善、演化&＃xff0c;以满足业务的需要。
在这里插入图片描述

推荐阅读

solr
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
search
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
php
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
php
Redis概念

Redis概念：redis是一款高性能的NOSQL系列的非关系型数据库什么是NOSQLNOSQL(NoSQLNotOnlySQL)，意即不仅仅是SQL，是一项全新的数据库理念， ... [详细]

蜡笔小新 2024-10-09 16:39:07
spring
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
config
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
spring
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
instance
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
php
HTML5大文件传输技术深度解析与实践分享

本文深入探讨了HTML5在Web前端开发中实现大文件上传的技术细节与实践方法。通过实例分析，详细讲解了如何利用HTML5的相关特性高效、稳定地处理大文件传输问题，并提供了可供参考的代码示例和解决方案。此外，文章还讨论了常见的技术挑战及优化策略，旨在帮助开发者更好地理解和应用HTML5大文件上传技术。 ... [详细]

蜡笔小新 2024-10-28 18:59:50
php
大数据深度解读系列官网资源分享

大数据深度解读系列官网资源分享 ... [详细]

蜡笔小新 2024-10-27 17:27:52
buffer
如何在SPARK SQL中通过Expand操作实现Grouping Sets（逻辑计划层面详解）

背景本文基于spark3.1.2之前在做bug调试的时候遇到了expand的问题，在此记录一下分析运行该sql： createtabletest_ ... [详细]

蜡笔小新 2024-10-22 16:42:53
php
Phoenix 使用体验分享与深度解析

闲来无事看了下hbase方面的东西，发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作：启动hadoop集群启动zookkeeper启动hba ... [详细]

蜡笔小新 2024-10-22 14:57:42
php
JVM上高性能数据格式库包Apache Arrow入门和架构的示例分析

小编给大家分享一下JVM上高性能数据格式库包ApacheArrow入门和架构的示例分析，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！Apac ... [详细]

蜡笔小新 2024-10-21 17:23:18
php
Catalyst揭秘 Day1 Catalyst本地解析

Catalyst本地解析今天开始讲下Catalyst，这是我们必须精通的内容之一：基本概念catalyst是一种解析器引擎，而不仅是sql解析引擎。如果研究下catalyst，可以 ... [详细]

蜡笔小新 2024-10-19 13:21:03

事过人空

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章