实时计算框架：Flink集群搭建与运行机制

作者：袁广龙976丶 | 来源：互联网 | 2023-07-22 12:47

一、Flink概述1、基础简介Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行

一、Flink概述

1、基础简介

Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。主要特性包括：批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink不仅可以运行在包括YARN、Mesos、Kubernetes在内的多种资源管理框架上，还支持在裸机集群上独立部署。在启用高可用选项的情况下，它不存在单点失效问题。

这里要说明两个概念：

边界：无边界和有边界数据流，可以理解为数据的聚合策略或者条件；

状态：即执行顺序上是否存在依赖关系，即下次执行是否依赖上次结果；

2、应用场景

Data Driven

事件驱动型应用无须查询远程数据库，本地数据访问使得它具有更高的吞吐和更低的延迟，以反欺诈案例来看，DataDriven把处理的规则模型写到DatastreamAPI中，然后将整个逻辑抽象到Flink引擎，当事件或者数据流入就会触发相应的规则模型，一旦触发规则中的条件后，DataDriven会快速处理并对业务应用进行通知。

Data Analytics

和批量分析相比，由于流式分析省掉了周期性的数据导入和查询过程，因此从事件中获取指标的延迟更低。不仅如此，批量查询必须处理那些由定期导入和输入有界性导致的人工数据边界，而流式查询则无须考虑该问题，Flink为持续流式分析和批量分析都提供了良好的支持，实时处理分析数据，应用较多的场景如实时大屏、实时报表。

Data Pipeline

与周期性的ETL作业任务相比，持续数据管道可以明显降低将数据移动到目的端的延迟，例如基于上游的StreamETL进行实时清洗或扩展数据，可以在下游构建实时数仓，确保数据查询的时效性，形成高时效的数据查询链路，这种场景在媒体流的推荐或者搜索引擎中十分常见。

二、环境部署

1、安装包管理

[root@hop01 opt]# tar -zxvf flink-1.7.0-bin-hadoop27-scala_2.11.tgz [root@hop02 opt]# mv flink-1.7.0 flink1.7

2、集群配置

管理节点

[root@hop01 opt]# cd /opt/flink1.7/conf [root@hop01 conf]# vim flink-conf.yaml jobmanager.rpc.address: hop01

分布节点

[root@hop01 conf]# vim slaves hop02 hop03

两个配置同步到所有集群节点下面。

3、启动与停止

/opt/flink1.7/bin/start-cluster.sh /opt/flink1.7/bin/stop-cluster.sh

启动日志：

[root@hop01 conf]# /opt/flink1.7/bin/start-cluster.sh Starting cluster. Starting standalonesession daemon on host hop01. Starting taskexecutor daemon on host hop02. Starting taskexecutor daemon on host hop03.

4、Web界面

访问：http://hop01:8081/

三、开发入门案例

1、数据脚本

分发一个数据脚本到各个节点：

/var/flink/test/word.txt

2、引入基础依赖

这里基于Java写的基础案例。

org.apache.flink flink-java 1.7.0 org.apache.flink flink-streaming-java_2.11 1.7.0

3、读取文件数据

这里直接读取文件中的数据，经过程序流程分析出每个单词出现的次数。

public class WordCount { public static void main(String[] args) throws Exception { // 读取文件数据 readFile () ; } public static void readFile () throws Exception { // 1、执行环境创建 ExecutionEnvironment envirOnment= ExecutionEnvironment.getExecutionEnvironment(); // 2、读取数据文件 String filePath = "/var/flink/test/word.txt" ; DataSet inputFile = environment.readTextFile(filePath); // 3、分组并求和 DataSet> wordDataSet = inputFile.flatMap(new WordFlatMapFunction( )).groupBy(0).sum(1); // 4、打印处理结果 wordDataSet.print(); } // 数据读取个切割方式 static class WordFlatMapFunction implements FlatMapFunction> { @Override public void flatMap(String input, Collector> collector){ String[] wordArr = input.split(","); for (String word : wordArr) { collector.collect(new Tuple2<>(word, 1)); } } } }

4、读取端口数据

在hop01服务上创建一个端口，并模拟一些数据发送到该端口：

[root@hop01 ~]# nc -lk 5566 c++,java

通过Flink程序读取并分析该端口的数据内容：

public class WordCount { public static void main(String[] args) throws Exception { // 读取端口数据 readPort (); } public static void readPort () throws Exception { // 1、执行环境创建 StreamExecutionEnvironment envirOnment= StreamExecutionEnvironment.getExecutionEnvironment(); // 2、读取Socket数据端口 DataStreamSource inputStream = environment.socketTextStream("hop01", 5566); // 3、数据读取个切割方式 SingleOutputStreamOperator> resultDataStream = inputStream.flatMap( new FlatMapFunction>() { @Override public void flatMap(String input, Collector> collector) { String[] wordArr = input.split(","); for (String word : wordArr) { collector.collect(new Tuple2<>(word, 1)); } } }).keyBy(0).sum(1); // 4、打印分析结果 resultDataStream.print(); // 5、环境启动 environment.execute(); } }

四、运行机制
FlinkClient
客户端用来准备和发送数据流到JobManager节点，之后根据具体需求，客户端可以直接断开连接，或者维持连接状态等待任务处理结果。
JobManager
在Flink集群中，会启动一个JobManger节点和至少一个TaskManager节点，JobManager收到客户端提交的任务后，JobManager会把任务协调下发到具体的TaskManager节点去执行，TaskManager节点将心跳和处理信息发送给JobManager。
TaskManager
任务槽（slot）是TaskManager中最小的资源调度单位，在启动的时候就设置好了槽位数，每个槽位能启动一个Task，接收JobManager节点部署的任务，并进行具体的分析处理。

五、源代码地址
`GitHub·地址 https://github.com/cicadasmile/big-data-parent GitEE·地址 https://gitee.com/cicadasmile/big-data-parent`
大数据系列

Hadoop框架

大数据简介，技术体系分类整理

Hadoop框架：单服务下伪分布式集群搭建

Hadoop框架：集群模式下分布式环境搭建

Hadoop框架：HDFS简介与Shell管理命令

Hadoop框架：HDFS读写机制与API详解

Hadoop框架：NameNode工作机制详解

Hadoop框架：DataNode工作机制详解

Hadoop框架：HDFS高可用环境配置

Hadoop框架：MapReduce基本原理和入门案例

Hadoop框架：Yarn基本结构和运行原理

基础组件

数据仓库组件：Hive环境搭建和基础用法

数据仓库组件：HBase集群环境搭建和应用案例

数据采集组件：Flume基础用法和Kafka集成

数据搬运组件：基于Sqoop管理数据导入和导出

数据调度组件：基于Azkaban协调时序任务执行

数据搬运组件：基于DataX同步数据和源码分析

实时计算框架

实时计算框架：Spark集群搭建与入门案例

OLAP分析引擎

OLAP分析引擎，基于Druid组件数据统计分析

OLAP分析引擎：基于Presto组件跨数据源分析

OLAP查询引擎：列式库ClickHouse集群管理

推荐阅读

spring
在List和Set集合中存储Object类型的数据元素

在List和Set集合中存储Object类型的数据元素 ... [详细]

蜡笔小新 2024-11-09 18:55:32
java
CSS3 @font-face 字体应用技术解析与实践

在Web前端开发中，HTML教程和CSS3的结合使得网页设计更加多样化。长期以来，Web设计师受限于“web-safe”字体的选择。然而，CSS3中的`@font-face`规则允许从服务器端加载自定义字体，极大地丰富了网页的视觉效果。通过这一技术，设计师可以自由选择和使用各种字体，提升用户体验和页面美观度。本文将深入解析`@font-face`的实现原理，并提供实际应用案例，帮助开发者更好地掌握这一强大工具。 ... [详细]

蜡笔小新 2024-11-07 19:12:26
ip
Windows环境下详细教程：如何搭建Git服务

Windows环境下详细教程：如何搭建Git服务 ... [详细]

蜡笔小新 2024-10-28 17:31:26
ip
Panabit应用层流量管理解决方案

Panabit是一款国内领先的应用层流量管理解决方案，提供高度开放且免费的专业服务，尤其擅长P2P应用的精准识别与高效控制。截至2009年3月25日，该系统已实现对多种网络应用的全面支持，有效提升了网络资源的利用效率和安全性。 ... [详细]

蜡笔小新 2024-10-24 06:45:12
ip
CentOS系统中PHP版本升级的详细指南与注意事项

CentOS系统中PHP版本升级的详细指南与注意事项 ... [详细]

蜡笔小新 2024-10-22 14:02:24
io
简述hdfs工作原理_HDFS原理概念扫盲

1、概述hdfs文件系统主要设计为了存储大文件的文件系统；如果有个TB级别的文件，我们该怎么存储呢？分布式文件系统未出现的时候࿰ ... [详细]

蜡笔小新 2024-10-12 13:16:56
text
EzPP 0.2发布，新增YAML布局渲染功能

EzPP发布了0.2.1版本，新增了YAML布局渲染功能，可以将YAML文件渲染为图片，并且可以复用YAML作为模版，通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片，让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子，介绍了使用ezpp的基本渲染方法，以及如何使用canvas、text类元素、自定义字体等。 ... [详细]

蜡笔小新 2023-12-11 12:39:10
ip
在CentOS系统下详细解析阿里云ECS服务器上搭建LAMP环境的配置步骤

本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先，通过PuTTY工具实现远程连接至服务器。接着，检查当前系统的磁盘空间使用情况，确保有足够的空间进行后续操作，可使用 `df` 命令进行查看。此外，文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤，以及常见问题的解决方法，帮助用户顺利完成LAMP环境的搭建。 ... [详细]

蜡笔小新 2024-11-09 15:09:47
io
REST与RPC：选择哪种API架构风格？

在探讨REST与RPC这两种API架构风格的选择时，本文首先介绍了RPC（远程过程调用）的概念。RPC允许客户端通过网络调用远程服务器上的函数或方法，从而实现分布式系统的功能调用。相比之下，REST（Representational State Transfer）则基于资源的交互模型，通过HTTP协议进行数据传输和操作。本文将详细分析两种架构风格的特点、适用场景及其优缺点，帮助开发者根据具体需求做出合适的选择。 ... [详细]

蜡笔小新 2024-11-07 12:00:58
ip
JavaWeb项目架构中的NFS文件服务器实现与优化

在JavaWeb项目架构中，NFS（网络文件系统）的实现与优化是关键环节。NFS允许不同主机系统通过局域网共享文件和目录，提高资源利用率和数据访问效率。本文详细探讨了NFS在JavaWeb项目中的应用，包括配置、性能优化及常见问题的解决方案，旨在为开发者提供实用的技术参考。 ... [详细]

蜡笔小新 2024-11-06 15:58:12
text
如何在Python中高效运用requests模块：详细使用指南与技巧分享

在Python中，`requests`模块是处理URL请求的强大工具，作为一个第三方库，需要单独安装。本文将详细介绍如何高效地使用`requests`模块，涵盖从基础功能到高级技巧的各个方面，帮助开发者更好地掌握其应用方法，提高开发效率和代码质量。 ... [详细]

蜡笔小新 2024-11-03 12:25:12
ip
深入解析OSI七层架构与TCP/IP协议体系

本文详细探讨了OSI七层模型（Open System Interconnection，开放系统互连）及其与TCP/IP协议体系的关系。OSI模型将网络通信过程划分为七个层次，每个层次负责不同的功能，从物理层到应用层逐步实现数据传输和处理。通过对比分析，本文揭示了OSI模型与TCP/IP协议在结构和功能上的异同，为理解现代网络通信提供了全面的视角。 ... [详细]

蜡笔小新 2024-10-30 12:58:01
case
如何利用Apache与Nginx高效实现动静态内容分离

如何利用Apache与Nginx高效实现动静态内容分离 ... [详细]

蜡笔小新 2024-10-29 21:47:55
ip
Elasticsearch简单使用系列安装

2019独角兽企业重金招聘Python工程师标准1.elasticsearch支持的操作系统和JVM版本https:www.elastic.cosupportmatrix2. ... [详细]

蜡笔小新 2024-09-26 11:42:11
io
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40

袁广龙976丶

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章