大数据框架发展史

作者：智慧曜彰_272 | 来源：互联网 | 2023-08-08 20:02

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的Spark，他们都有着各自

这几年大数据的飞速发展&＃xff0c;出现了很多热门的开源社区&＃xff0c;其中著名的有 Hadoop、Storm&＃xff0c;以及后来的 Spark&＃xff0c;他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河&＃xff0c;也以内存为赌注&＃xff0c;赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink&＃xff0c;也就在这个时候默默的发展着。
在国外一些社区&＃xff0c;有很多人将大数据的计算引擎分成了 4 代&＃xff0c;当然&＃xff0c;也有很多人不会认同。我们先姑且这么认为和讨论。

第1代——Hadoop MapReduce

首先第一代的计算引擎&＃xff0c;无疑就是 Hadoop 承载的 MapReduce。它将计算分为两个阶段&＃xff0c;分别为 Map 和 Reduce。对于上层应用来说&＃xff0c;就不得不想方设法去拆分算法&＃xff0c;甚至于不得不在上层应用实现多个 Job 的串联&＃xff0c;以完成一个完整的算法&＃xff0c;例如迭代计算。

介绍

MapReduce是一种编程模型&＃xff0c;用于大规模数据集&＃xff08;大于1TB&＃xff09;的并行运算。概念"Map&＃xff08;映射&＃xff09;"和"Reduce&＃xff08;归约&＃xff09;"&＃xff0c;是它们的主要思想&＃xff0c;都是从函数式编程语言里借来的&＃xff0c;还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下&＃xff0c;将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map&＃xff08;映射&＃xff09;函数&＃xff0c;用来把一组键值对映射成一组新的键值对&＃xff0c;指定并发的Reduce&＃xff08;归约&＃xff09;函数&＃xff0c;用来保证所有映射的键值对中的每一个共享相同的键组。

批处理
Mapper、Reducer

第2代——DAG框架&＃xff08;Tez&＃xff09; &＃43; MapReduce

由于这样的弊端&＃xff0c;催生了支持 DAG 框架的产生。因此&＃xff0c;支持 DAG 的框架被划分为第二代计算引擎。如 Tez 以及更上层的 Oozie。这里我们不去细究各种 DAG 实现之间的区别&＃xff0c;不过对于当时的 Tez 和 Oozie 来说&＃xff0c;大多还是批处理的任务。

介绍

Tez是Apache开源的支持DAG作业的计算框架&＃xff0c;它直接源于MapReduce框架&＃xff0c;核心思想是将Map和Reduce两个操作进一步拆分&＃xff0c;即Map被拆分成Input、Processor、Sort、Merge和Output&＃xff0c; Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等&＃xff0c;这样&＃xff0c;这些分解后的元操作可以任意灵活组合&＃xff0c;产生新的操作&＃xff0c;这些操作经过一些控制程序组装后&＃xff0c;可形成一个大的DAG作业。

批处理
1个Tez &＃61; MR(1) &＃43; MR(2) &＃43; … &＃43; MR(n)
相比MR效率有所提升

第3代——Spark

接下来就是以 Spark 为代表的第三代的计算引擎。第三代计算引擎的特点主要是 Job 内部的 DAG 支持&＃xff08;不跨越 Job&＃xff09;&＃xff0c;以及强调的实时计算。在这里&＃xff0c;很多人也会认为第三代计算引擎也能够很好的运行批处理的 Job。

介绍

Spark是加州大学伯克利分校AMP实验室&＃xff08;Algorithms, Machines, and People Lab&＃xff09;开发的通用内存并行计算框架

Spark使用Scala语言进行实现&＃xff0c;它是一种面向对象、函数式编程语言&＃xff0c;能够像操作本地集合对象一样轻松地操作分布式数据集&＃xff0c;具有以下特点。

运行速度快&＃xff1a;Spark拥有DAG执行引擎&＃xff0c;支持在内存中对数据进行迭代计算。官方提供的数据表明&＃xff0c;如果数据由磁盘读取&＃xff0c;速度是Hadoop MapReduce的10倍以上&＃xff0c;如果数据从内存中读取&＃xff0c;速度可以高达100多倍。
易用性好&＃xff1a;Spark不仅支持Scala编写应用程序&＃xff0c;而且支持Java和Python等语言进行编写&＃xff0c;特别是Scala是一种高效、可拓展的语言&＃xff0c;能够用简洁的代码处理较为复杂的处理工作。
通用性强&＃xff1a;Spark生态圈即BDAS&＃xff08;伯克利数据分析栈&＃xff09;包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件&＃xff0c;这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即席查询、MLlib或MLbase的机器学习和GraphX的图处理。
随处运行&＃xff1a;Spark具有很强的适应性&＃xff0c;能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据&＃xff0c;能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job&＃xff0c;来完成Spark应用程序的计算

批处理、流处理、SQL高层API支持
自带DAG
内存迭代计算、性能较之前大幅提升

第4代——Flink

随着第三代计算引擎的出现&＃xff0c;促进了上层应用快速发展&＃xff0c;例如各种迭代计算的性能以及对流计算和 SQL 等的支持。Flink 的诞生就被归在了第四代。这应该主要表现在 Flink 对流计算的支持&＃xff0c;以及更一步的实时性上面。当然 Flink 也可以支持 Batch 的任务&＃xff0c;以及 DAG 的运算。

介绍

Flink 诞生于欧洲的一个大数据研究项目 StratoSphere。该项目是柏林工业大学的一个研究性项目。早期&＃xff0c; Flink 是做 Batch 计算的&＃xff0c;但是在 2014 年&＃xff0c; StratoSphere 里面的核心成员孵化出 Flink&＃xff0c;同年将 Flink 捐赠 Apache&＃xff0c;并在后来成为 Apache 的顶级大数据项目&＃xff0c;同时 Flink 计算的主流方向被定位为 Streaming&＃xff0c; 即用流式计算来做所有大数据的计算&＃xff0c;这就是 Flink 技术诞生的背景。

2014 年 Flink 作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。区别于 Storm、Spark Streaming 以及其他流式计算引擎的是&＃xff1a;它不仅是一个高吞吐、低延迟的计算引擎&＃xff0c;同时还提供很多高级的功能。比如它提供了有状态的计算&＃xff0c;支持状态管理&＃xff0c;支持强一致性的数据语义以及支持基于Event Time的WaterMark对延迟或乱序的数据进行处理等。

批处理、流处理、SQL高层API支持
自带DAG
流式计算性能更高、可靠性更高

彩蛋

资源获取获取Flink面试题&＃xff0c;Spark面试题&＃xff0c;程序员必备软件&＃xff0c;hive面试题&＃xff0c;Hadoop面试题&＃xff0c;Docker面试题&＃xff0c;简历模板等资源请去 GitHub自行下载 https://github.com/lhh2002/Framework-Of-BigData Gitee 自行下载 https://gitee.com/li_hey_hey/dashboard/projects

扫码关注

大数据老哥
希望这篇文章可以帮到你~
记得点赞收藏哦

推荐阅读

input
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
main
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
main
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
text
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
range
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
post
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
post
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
post
如何撰写数据分析师（包括转行者）的面试简历？

CDA数据分析师团队出品，作者：徐杨老师，编辑：Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历，特别是对于转行者。 ... [详细]

蜡笔小新 2024-11-12 18:20:52
function
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
select
深入解析数据库并发控制机制

本文详细介绍了数据库并发控制的基本概念、重要性和具体实现方法。并发控制是确保多个事务在同时操作数据库时保持数据一致性的关键机制。文章涵盖了锁机制、多版本并发控制（MVCC）、乐观并发控制和悲观并发控制等内容。 ... [详细]

蜡笔小新 2024-11-12 12:37:08
range
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
main
[BZOJ2654] Tree 问题：二分查找与 Kruskal 算法结合的优化解决方案

题目《BZOJ2654: Tree》的时间限制为30秒，内存限制为512MB。该问题通过结合二分查找和Kruskal算法，提供了一种高效的优化解决方案。具体而言，利用二分查找缩小解的范围，再通过Kruskal算法构建最小生成树，从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率，还确保了在大规模数据集上的稳定性能。 ... [详细]

蜡笔小新 2024-11-11 18:19:28
main
如何以低成本高效构建Hadoop和Spark大数据处理环境

随着“大数据”价值的日益凸显，从互联网、电商到金融和政府机构等各个领域都在积极应对海量数据的处理需求。如何以较低成本快速高效地构建大数据处理平台，已成为推动大数据应用创新的重要因素。为了帮助用户以最简便的方式实现这一目标，本文将详细介绍如何利用Hadoop和Spark技术搭建稳定可靠的大数据处理环境。 ... [详细]

蜡笔小新 2024-11-08 15:31:10
range
Python全局解释器锁（GIL）机制详解

在Python中，线程是操作系统级别的原生线程。为了确保多线程环境下的内存安全，Python虚拟机引入了全局解释器锁（Global Interpreter Lock，简称GIL）。GIL是一种互斥锁，用于保护对解释器状态的访问，防止多个线程同时执行字节码。尽管GIL有助于简化内存管理，但它也限制了多核处理器上多线程程序的并行性能。本文将深入探讨GIL的工作原理及其对Python多线程编程的影响。 ... [详细]

蜡笔小新 2024-11-08 08:19:19
version
深入浅析JVM垃圾回收机制与收集器概述

本文基于《深入理解Java虚拟机：JVM高级特性与最佳实践（第3版）》的阅读心得进行整理，详细探讨了JVM的垃圾回收机制及其各类收集器的特点与应用场景。通过分析不同垃圾收集器的工作原理和性能表现，帮助读者深入了解JVM内存管理的核心技术，为优化Java应用程序提供实用指导。 ... [详细]

蜡笔小新 2024-11-07 18:39:45

智慧曜彰_272

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章