什么是大数据lambda架构

作者：浪迹天涯嶵_罚 | 来源：互联网 | 2023-10-17 16:06

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数

一、什么是Lambda架构

Lambda架构由Storm 的作者 [Nathan Marz] 提出&＃xff0c; 根据维基百科的定义&＃xff0c;Lambda 架构的设计是为了在处理大规模数据时&＃xff0c;同时发挥流处理和批处理的优势。通过批处理提供全面、准确的数据&＃xff0c;通过流处理提供低延迟的数据&＃xff0c;从而达到平衡延迟、吞吐量和容错性的目的。为了满足下游的即席查询&＃xff0c;批处理和流处理的结果会进行合并。

二、Lambda架构组成

Lambda 架构包含三层&＃xff0c;Batch Layer、Speed Layer 和 Serving Layer。架构图如下&＃xff1a;

1. 基本概念

Batch Layer&＃xff1a;批处理层&＃xff0c;对离线的历史数据进行预计算&＃xff0c;为了下游能够快速查询想要的结果。由于批处理基于完整的历史数据集&＃xff0c;因此准确性可以得到保证。批处理层可以用 Hadoop、Spark 和 Flink 等框架计算
Speed Layer&＃xff1a;加速处理层&＃xff0c;处理实时的增量数据&＃xff0c;这一层重点在于低延迟。加速层的数据不如批处理层那样完整和准确&＃xff0c;但是可以填补批处理高延迟导致的数据空白。加速层可以用 Storm、Spark streaming 和 Flink 等框架计算
Serving Layer&＃xff1a;合并层&＃xff0c;计算历史数据和实时数据都有了&＃xff0c; 合并层的工作自然就是将两者数据合并&＃xff0c;输出到数据库或者其他介质&＃xff0c;供下游分析。

这里涉及到数据合并的问题&＃xff0c;如果查询函数满足Monoid性质&＃xff08;结合律&＃xff0c;&＃xff08;a&＃43;b&＃xff09;&＃43;c &＃61; a &＃43; (b &＃43; c)&＃xff09;&＃xff0c;只需要简单的合并Batch View和Realtime View中的经过数据集。否则&＃xff0c;需要把查询函数转换为多个满足Monoid性质的查询函数的运算&＃xff0c;单独对每个满足Monoid性质的查询函数进行Batch View和Realtime View中的结果数据集合并&＃xff0c;然后再计算得到最终的结果数据集。也可以根据业务自身特性&＃xff0c;运用业务自身的规则来对Batch View和Realtime View中的结果数据集合并。

2. lambda架构优点

职责边界清晰。Speed Layer处理数据为最近的增量数据流&＃xff0c;Batch Layer处理的是全体数据集。Speed Layer为了效率&＃xff0c;接收到新数据时不断更新Realtime View&＃xff0c;而Batch Layer根据全体离线数据集直接得到Batch View。Speed Layer是一种增量计算&＃xff0c;而非重新计算&＃xff08;recomputation&＃xff09;。

容错性。Speed Layer中处理的数据也不断写入Batch Layer&＃xff0c;当Batch Layer中重新计算的数据集包含Speed Layer处理的数据集后&＃xff0c;当前的Realtime View就可以丢弃&＃xff0c;这意味着Speed Layer处理中引入的错误&＃xff0c;在Batch Layer重新计算时都可以得到修正。这点也可以看成是CAP理论中的最终一致性&＃xff08;Eventual Consistency&＃xff09;的体现。

复杂性隔离。Batch Layer处理的是离线数据&＃xff0c;可以很好的掌控。Speed Layer采用增量算法处理实时数据&＃xff0c;复杂性比Batch Layer要高很多。通过分开Batch Layer和Speed Layer&＃xff0c;把复杂性隔离到Speed Layer&＃xff0c;可以很好的提高整个系统的鲁棒性和可靠性。

3. lambda架构缺点

实时与批量计算结果不一致引起的数据口径问题&＃xff1a;因为批量和实时计算走的是两个计算框架和计算程序&＃xff0c;算出的结果往往不同&＃xff0c;经常看到一个数字当天看是一个数据&＃xff0c;第二天看昨天的数据反而发生了变化。
批量计算在计算窗口内无法完成&＃xff1a;在IOT时代&＃xff0c;数据量级越来越大&＃xff0c;经常发现夜间只有4、5个小时的时间窗口&＃xff0c;已经无法完成白天20多个小时累计的数据&＃xff0c;保证早上上班前准时出数据已成为每个大数据团队头疼的问题。
开发和维护的复杂性问题&＃xff1a;Lambda 架构需要在两个不同的 API&＃xff08;application programming interface&＃xff0c;应用程序编程接口&＃xff09;中对同样的业务逻辑进行两次编程&＃xff1a;一次为批量计算的ETL系统&＃xff0c;一次为流式计算的Streaming系统。针对同一个业务问题产生了两个代码库&＃xff0c;各有不同的漏洞。这种系统实际上非常难维护
服务器存储大&＃xff1a;数据仓库的典型设计&＃xff0c;会产生大量的中间结果表&＃xff0c;造成数据急速膨胀&＃xff0c;加大服务器存储压力。

三、Lambda架构选型

1. Lambda架构模型

数据流进入系统后&＃xff0c;同时发往Batch Layer和Speed Layer处理。Batch Layer以不可变模型离线存储所有数据集&＃xff0c;通过在全体数据集上不断重新计算构建查询所对应的Batch Views。Speed Layer处理增量的实时数据流&＃xff0c;不断更新查询所对应的Realtime Views。Serving Layer响应用户的查询请求&＃xff0c;合并Batch View和Realtime View中的结果数据集到最终的数据集。

2. Lambda逻辑架构

数据从底层的数据源开始&＃xff0c;经过各种各样的格式进入大数据平台&＃xff0c;在大数据平台中经过Kafka、Flume等数据组件进行收集&＃xff0c;然后分成两条线进行计算。一条线是进入流式计算平台&＃xff08;例如 Flink或者Spark Streaming&＃xff09;&＃xff0c;去计算实时的一些指标&＃xff1b;另一条线进入批量数据处理离线计算平台&＃xff08;例如Mapreduce、Hive&＃xff0c;Spark SQL&＃xff09;&＃xff0c;去计算T&＃43;1的相关业务指标&＃xff0c;这些指标需要隔日才能看见。同时实时数据和离线数据进行合并&＃xff0c;提供全量&＃xff08;含当天&＃xff09;的指标数据展示。

3. 组件选型

数据流存储可选用基于不可变日志的分布式消息系统Kafka&＃xff1b;Batch Layer数据集的存储可选用Hadoop的HDFS&＃xff0c;或者是阿里云的ODPS&＃xff1b;Batch View的预计算可以选用MapReduce或Spark&＃xff1b;Batch View自身结果数据的存储可使用MySQL&＃xff08;查询少量的最近结果数据&＃xff09;&＃xff0c;或HBase&＃xff08;查询大量的历史结果数据&＃xff09;。Speed Layer增量数据的处理可选用Flink或Spark Streaming&＃xff1b;Realtime View增量结果数据集为了满足实时更新的效率&＃xff0c;可选用Redis等内存NoSQL。

Batch Layer数据集的存储可选用Hadoop的HDFS&＃xff0c;存储在HDFS的数据不再转存到其它组件&＃xff0c;而是采用impala/sparkSQL基于内存查询的SQL引擎直接读取HDFS中的数据。Speed Layer增量数据的处理可选用Flink或Spark Streaming处理后存储到支持高吞吐低延时的列式存储系统中&＃xff0c;比如HBase。ServingLayer阶段&＃xff0c;数据在HDFS中进行合并&＃xff0c;最终由impala负责提供即时查询。

四、Amazon AWS 的 Lambda 架构

Batch Layer&＃xff1a;使用 S3 bucket 从各种数据源收集数据&＃xff0c;使用 AWS Glue 进行 ETL&＃xff0c;输出到 Amazon S3。数据也可以输出到 Amazon Athena &＃xff08;[交互式查询])工具&＃xff09;

Speed Layer&＃xff1a; 从上图看加速层有三个过程

Kinesis Stream 从[实时数据流])中处理增量的数据&＃xff0c;这部分数据数据输出到 Serving Layer 的 Amazon EMR&＃xff0c;也可以输出到 Kinesis Firehose 对增量数据进行后续处理

Kinesis Firehose 处理增量数据并写入 Amazone S3 中

Kinesis Analytics 提供 SQL 的能力对增量的数据进行分析

Serving Layer&＃xff1a;合并层使用基于 Amazon EMR 的 Spark SQL 来合并 Batch Layer 和 Speed Layer 的数据。批处理数据可以从 Amazon S3 加载批处理数据&＃xff0c;[实时数据]可以从 Kinesis Stream 直接加载&＃xff0c;合并的数据可以写到 Amazone S3。下面是一段[合并数据代码]

参考文章&＃xff1a;

Lambda架构 - 简书

深入理解大数据架构之——Lambda架构 - Heriam - 博客园

推荐阅读

sum
CUGB图论专题：排水系统中的最大流问题 - EK与Dinic算法解析

本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率，使用经典的EK（Edmonds-Karp）和Dinic算法进行求解。 ... [详细]

蜡笔小新 2024-12-25 17:47:23
split
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
java
深入解析 Apache Flink 的保存点机制

在本周的白板演练中，Apache Flink 的 PMC 成员及数据工匠首席技术官 Stephan Ewen 深入探讨了如何利用保存点功能进行流处理中的数据重新处理、错误修复、系统升级和 A/B 测试。本文将详细解释保存点的工作原理及其应用场景。 ... [详细]

蜡笔小新 2024-12-24 16:57:24
java
深入探讨DB2数据库性能优化策略

本文详细介绍了IBM DB2数据库在大型应用系统中的应用，强调其卓越的可扩展性和多环境支持能力。文章深入分析了DB2在数据利用性、完整性、安全性和恢复性方面的优势，并提供了优化建议以提升其在不同规模应用程序中的表现。 ... [详细]

蜡笔小新 2024-12-28 13:22:19
bit
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
bit
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
bit
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
数组
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
数组
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
select
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
select
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
select
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
sum
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
filter
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
java
解决C# Windows Forms客户端连接SignalR服务器时出现的错误

在尝试使用C# Windows Forms客户端通过SignalR连接到ASP.NET服务器时，遇到了内部服务器错误（500）。本文将详细探讨问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-21 16:55:52

浪迹天涯嶵_罚

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章