Hadoop、spark、Flink、Blink、storm介绍

作者：菠萝和尚 | 来源：互联网 | 2023-08-24 12:00

1、什么是hadoop（搭建集群）Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架&#

1、什么是hadoop&＃xff08;搭建集群&＃xff09;

Hadoop是由java语言编写的&＃xff0c;在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架&＃xff0c;其核心部件是HDFS与MapReduce。

HDFS是一个分布式文件系统&＃xff1a;引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode&＃xff0c;对数据进行分布式储存和读取。

MapReduce是一个计算框架&＃xff1a;MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分&＃xff08;Map计算/Reduce计算&＃xff09;再根据任务调度器&＃xff08;JobTracker&＃xff09;对任务进行分布式计算

应用&＃xff1a;目前比较流行的广告推荐&＃xff0c;个性化广告推荐

2.什么是storm

Storm是Twitter开源的分布式实时大数据处理框架&＃xff0c;被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍&＃xff0c;比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等&＃xff0c;大数据实时处理解决方案&＃xff08;流计算&＃xff09;的应用日趋广泛&＃xff0c;目前已是分布式技术领域最新爆发点&＃xff0c;而Storm更是流计算技术中的佼佼者和主流。

按照storm作者的说法&＃xff0c;Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Hadoop提供了map、reduce原语&＃xff0c;使我们的批处理程序变得简单和高效。同样&＃xff0c;Storm也为实时计算提供了一些简单高效的原语&＃xff0c;而且Storm的Trident是基于Storm原语更高级的抽象框架&＃xff0c;类似于基于Hadoop的Pig框架&＃xff0c;让开发更加便利和高效。

应用&＃xff1a;广告推荐系统、金融系统、预警系统、网站统计&＃xff08;实时销量、流量统计&＃xff0c;如淘宝双11效果图&＃xff09;、交通路况实时系统等等。

3、spark

RDD替代了hadoop的MapReduce

Spark Core&＃xff1a;包含Spark的基本功能&＃xff1b;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的

Spark SQL&＃xff1a;提供通过Apache Hive的SQL变体Hive查询语言&＃xff08;HiveQL&＃xff09;与Spark进行交互的API。每个数据库表被当做一个RDD&＃xff0c;Spark SQL查询被转换为Spark操作。

Spark Streaming&＃xff08;其中spark中有两个&＃xff1a;sparkStreaming和Structured Streaming&＃xff09;&＃xff1a;对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据

MLlib&＃xff1a;一个常用机器学习算法库&＃xff0c;算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法&＃xff0c;比如分类、回归等需要对大量数据集进行迭代的操作。

GraphX&＃xff1a;控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API&＃xff0c;包含控制图、创建子图、访问路径上所有顶点的操作

Spark提供了一个全面、统一的框架用于管理各种有着不同性质&＃xff08;文本数据、图表数据等&＃xff09;的数据集和数据源&＃xff08;批量数据或实时的流数据&＃xff09;的大数据处理的需求

官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍&＃xff0c;甚至能够将应用在磁盘上的运行速度提升10

4、Filink

Apache Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台&＃xff0c;它能够基于同一个Flink运行时&＃xff08;Flink Runtime&＃xff09;&＃xff0c;提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案&＃xff0c;会把流处理和批处理作为两种不同的应用类型&＃xff0c;因为他们它们所提供的SLA是完全不相同的&＃xff1a;流处理一般需要支持低延迟、Exactly-once保证&＃xff0c;而批处理需要支持高吞吐、高效处理&＃xff0c;所以在实现的时候通常是分别给出两套实现方法&＃xff0c;或者通过一个独立的开源框架来实现其中每一种处理方案。例如&＃xff0c;实现批处理的开源方案有MapReduce、Tez、Crunch、Spark&＃xff0c;实现流处理的开源方案有Samza、Storm。 Flink在实现流处理和批处理时&＃xff0c;与传统的一些方案完全不同&＃xff0c;它从另一个视角看待流处理和批处理&＃xff0c;将二者统一起来&＃xff1a;Flink是完全支持流处理&＃xff0c;也就是说作为流处理看待时输入数据流是无界的&＃xff1b;批处理被作为一种特殊的流处理&＃xff0c;只是它的输入数据流被定义为有界的。基于同一个Flink运行时&＃xff08;Flink Runtime&＃xff09;&＃xff0c;分别提供了流处理和批处理API&＃xff0c;而这两种API也是实现上层面向流处理、批处理类型应用框架的基础。

Flink 与开源大数据处理生态系统中的许多项目都有集成。Flink 可以运行在 YARN 上&＃xff0c;与 HDFS 协同工作&＃xff0c;从 Kafka 中读取流数据&＃xff0c;可以执行 Hadoop 程序代码&＃xff0c;可以连接多种数据存储系统。

5、Blink

就是FLINK的企业定制版

Spark的数据模型是弹性分布式数据集 RDD(Resilient Distributed Dattsets)&＃xff0c;这个内存数据结构使得spark可以通过固定内存做大批量计算。初期的Spark Streaming是通过将数据流转成批(micro-batches)&＃xff0c;即收集一段时间(time-window)内到达的所有数据&＃xff0c;并在其上进行常规批处&＃xff0c;所以严格意义上&＃xff0c;还不能算作流式处理。但是Spark从版本开始推出基于 Continuous Processing Mode的 Structured Streaming&＃xff0c;支持按事件时间处理和端到端的一致性&＃xff0c;但是在功能上还有一些缺陷&＃xff0c;比如对端到端的exactly-once语义的支持。

Blink是统一的流和批处理框架&＃xff0c;基本数据模型是数据流&＃xff0c;以及事件(Event)的序列&＃xff0c;Blink从设计之初秉持了一个观点:批是流的特例。每一条数据都可以出发计算逻辑&＃xff0c;那么Blink的流特性已经在延迟方面占得天然优势。

Flink和Spark都是由Scla和Java混合编程实现&＃xff0c;Spark的核心逻辑由Scala完成&＃xff0c;而Flink的主要核心逻辑由Java完成。在对第三方语言的支持上&＃xff0c;Spark支持的更为广泛&＃xff0c;Spark几乎完美的支持Scala&＃xff0c;Java&＃xff0c;Python,R语言编程。

开源的 Blink 代码作为 Flink 的一个 branch 直接推回到 Apache Flink 项目中是最合适的方式。并且我们和社区也一起讨论规划出一套能够快速 merge Blink 到 Flink master 中的方案

推荐阅读

int
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
int
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
int
无服务器_云原生数据湖架构中的无服务器 Kafka

篇首语：本文由编程笔记#小编为大家整理，主要介绍了云原生数据湖架构中的无服务器Kafka相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-12 15:37:48
int
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
sum
你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ... [详细]

蜡笔小新 2023-10-15 17:24:27
bit
这也太简单了！轻松操作Feign 服务调用使用 Zipkin 链路追踪！

0、介绍分布式微服务时代，方便了业务的快速增长和服务的稳定，但是系统出现问题后，面对同业务多服务排查起来令人头大。这时候领导就想着集成分布式追踪系统。Zipkin是T ... [详细]

蜡笔小新 2023-10-15 15:12:54
bit
SQL：数据世界的通用语

目录摘要SQL的现在NoSQL,NotOnlySQL要分布式，也要SQL总结引用摘要毫不夸张的说，关系数据库是企业软件系统的核心，企业形形色色信息行为的背后，都有关系数据库的支撑。 ... [详细]

蜡笔小新 2023-10-12 22:29:13
bit
实时计算既有Flink，为何又推出个StreamPark？

StreamPark2.0.0版本于2023年2月21日正式发布，有流处理需求的开发者可以通过StreamPark官网以及GitHub去下载apache配置 ... [详细]

蜡笔小新 2023-10-12 15:44:47
int
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
int
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
int
OpenStack及其构成简介

本文介绍了OpenStack的逻辑概念以及其构成简介，包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]

蜡笔小新 2023-12-12 06:47:38
int
PHP组合工具以及开发所需的工具

本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件，包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境，包括推荐的AppServ等版本。 ... [详细]

蜡笔小新 2023-12-09 17:36:44
tree
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
client
实践解析可视化开发平台FlinkSever优势

实践,解析,可,视,化,开发,平台,fli ... [详细]

蜡笔小新 2023-10-12 18:17:09
sum
2022.4.2学习成果

Flink中的编程模型4.1编程模型在Flink，编程模型的抽象层级主要分为以下4种，越往下抽象度越低，编程越复杂，灵活度越高。这里先不一一介绍，后续会做详细说明。这4层中，一般用 ... [详细]

蜡笔小新 2023-10-12 17:17:52

菠萝和尚

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章