Flume详解

作者：董可芳妍_731 | 来源：互联网 | 2023-06-20 20:03

Flume详解一、Flume简介二、Flume特点三、Flume的一些核心概念3.1、Agent结构3.2、source3.3、Channel3.4、Sink四、Flume拦

Flume详解

一、Flume简介
二、Flume特点
三、Flume的一些核心概念
   3.1、Agent结构　　
   3.2、source
   3.3、Channel
   3.4、Sink
四、Flume拦截器、数据流以及可靠性
   4.1、Flume拦截器
   4.2、Flume数据流
   4.3、Flume可靠性
五、Flume使用场景
   5.1、多个agent顺序连接
   5.2、多个Agent的数据汇聚到同一个Agent
   5.3、多级流
   5.4、load balance功能
六、Flume核心组件
   6.1、Source
   6.2、Channel
   6.3、Sink

一、Flume简介

Flume 作为 cloudera 开发的实时日志收集系统&＃xff0c;受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG&＃xff08;original generation&＃xff09;&＃xff0c;属于 cloudera。但随着 FLume 功能的扩展&＃xff0c;Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来&＃xff0c;尤其是在 Flume OG 的最后一个发行版本 0.9.4. 中&＃xff0c;日志传输不稳定的现象尤为严重&＃xff0c;为了解决这些问题&＃xff0c;2011 年 10 月 22 号&＃xff0c;cloudera 完成了 Flume-728&＃xff0c;对 Flume 进行了里程碑式的改动&＃xff1a;重构核心组件、核心配置以及代码架构&＃xff0c;重构后的版本统称为 Flume NG&＃xff08;next generation&＃xff09;&＃xff1b;改动的另一原因是将 Flume 纳入 apache 旗下&＃xff0c;cloudera Flume 改名为 Apache Flume。

　　备注&＃xff1a;Flume参考资料

　　　　官方网站&＃xff1a; http://flume.apache.org/
　　　　用户文档&＃xff1a; http://flume.apache.org/FlumeUserGuide.html
　　　　开发文档&＃xff1a; http://flume.apache.org/FlumeDeveloperGuide.html

二、Flume特点

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方&＃xff0c;用于收集数据;同时&＃xff0c;Flume提供对数据进行简单处理&＃xff0c;并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。
　　Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位&＃xff0c;它携带日志数据(字节数组形式)并且携带有头信息&＃xff0c;这些Event由Agent外部的Source生成&＃xff0c;当Source捕获事件后会进行特定的格式化&＃xff0c;然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区&＃xff0c;它将保存事件直到Sink处理完该事件。

　　Sink负责持久化日志或者把事件推向另一个Source。

　　1&＃xff09;Flume的可靠性
　　　　当节点出现故障时&＃xff0c;日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障&＃xff0c;从强到弱依次分别为&＃xff1a;end-to-end&＃xff08;收到数据agent首先将event写到磁盘上&＃xff0c;当数据传送成功后&＃xff0c;再删除&＃xff1b;如果数据发送失败&＃xff0c;可以重新发送。&＃xff09;&＃xff0c;Store on failure&＃xff08;这也是scribe采用的策略&＃xff0c;当数据接收方crash时&＃xff0c;将数据写到本地&＃xff0c;待恢复后&＃xff0c;继续发送&＃xff09;&＃xff0c;Besteffort&＃xff08;数据发送到接收方后&＃xff0c;不会进行确认&＃xff09;。

　　2&＃xff09;Flume的可恢复性
　　　　还是靠Channel。推荐使用FileChannel&＃xff0c;事件持久化在本地文件系统里(性能较差)。

三、Flume的一些核心概念

Client&＃xff1a;Client生产数据&＃xff0c;运行在一个独立的线程。

　　Event&＃xff1a; 一个数据单元&＃xff0c;消息头和消息体组成。&＃xff08;Events可以是日志记录、 avro 对象等。&＃xff09;
　　Flow&＃xff1a; Event从源点到达目的点的迁移的抽象。
　　Agent&＃xff1a; 一个独立的Flume进程&＃xff0c;包含组件Source、 Channel、 Sink。&＃xff08;Agent使用JVM 运行Flume。每台机器运行一个agent&＃xff0c;但是可以在一个agent中包含多个sources和sinks。&＃xff09;
　　Source&＃xff1a; 数据收集组件。&＃xff08;source从Client收集数据&＃xff0c;传递给Channel&＃xff09;
　　Channel&＃xff1a; 中转Event的一个临时存储&＃xff0c;保存由Source组件传递过来的Event。&＃xff08;Channel连接 sources 和 sinks &＃xff0c;这个有点像一个队列。&＃xff09;
　　Sink&＃xff1a; 从Channel中读取并移除Event&＃xff0c; 将Event传递到FlowPipeline中的下一个Agent&＃xff08;如果有的话&＃xff09;&＃xff08;Sink从Channel收集数据&＃xff0c;运行在一个独立线程。&＃xff09;

3.1、Agent结构　　

Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集工具&＃xff0c;含有三个核心组件&＃xff0c;分别是 source、 channel、 sink。通过这些组件&＃xff0c; Event 可以从一个地方流向另一个地方。

3.2、source

Source是数据的收集端&＃xff0c;负责将数据捕获后进行特殊的格式化&＃xff0c;将数据封装到事件&＃xff08;event&＃xff09; 里&＃xff0c;然后将事件推入Channel中。 Flume提供了很多内置的Source&＃xff0c; 支持 Avro&＃xff0c; log4j&＃xff0c; syslog 和 http post(body为json格式)。可以让应用程序同已有的Source直接打交道&＃xff0c;如AvroSource&＃xff0c;SyslogTcpSource。如果内置的Source无法满足需要&＃xff0c; Flume还支持自定义Source。

3.3、Channel

Channel是连接Source和Sink的组件&＃xff0c;大家可以将它看做一个数据的缓冲区&＃xff08;数据队列&＃xff09;&＃xff0c;它可以将事件暂存到内存中也可以持久化到本地磁盘上&＃xff0c; 直到Sink处理完该事件。介绍两个较为常用的Channel&＃xff0c; MemoryChannel和FileChannel。

3.4、Sink

Sink从Channel中取出事件&＃xff0c;然后将数据发到别处&＃xff0c;可以向文件系统、数据库、 hadoop存数据&＃xff0c; 也可以是其他agent的Source。在日志数据较少时&＃xff0c;可以将数据存储在文件系统中&＃xff0c;并且设定一定的时间间隔保存数据。

四、Flume拦截器、数据流以及可靠性
4.1、Flume拦截器

当我们需要对数据进行过滤时&＃xff0c;除了我们在Source、 Channel和Sink进行代码修改之外&＃xff0c; Flume为我们提供了拦截器&＃xff0c;拦截器也是chain形式的。

　　拦截器的位置在Source和Channel之间&＃xff0c;当我们为Source指定拦截器后&＃xff0c;我们在拦截器中会得到event&＃xff0c;根据需求我们可以对event进行保留还是抛弃&＃xff0c;抛弃的数据不会进入Channel中。

4.2、Flume数据流

1&＃xff09;Flume 的核心是把数据从数据源收集过来&＃xff0c;再送到目的地。为了保证输送一定成功&＃xff0c;在送到目的地之前&＃xff0c;会先缓存数据&＃xff0c;待数据真正到达目的地后&＃xff0c;删除自己缓存的数据。
　　2&＃xff09; Flume 传输的数据的基本单位是 Event&＃xff0c;如果是文本文件&＃xff0c;通常是一行记录&＃xff0c;这也是事务的基本单位。 Event 从 Source&＃xff0c;流向 Channel&＃xff0c;再到 Sink&＃xff0c;本身为一个 byte 数组&＃xff0c;并可携带 headers 信息。 Event 代表着一个数据流的最小完整单元&＃xff0c;从外部数据源来&＃xff0c;向外部的目的地去。

　　

　　值得注意的是&＃xff0c;Flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source,Channel和Sink可以自由组合。组合方式基于用户设置的配置文件&＃xff0c;非常灵活。

　　比如&＃xff1a;Channel可以把事件暂存在内存里&＃xff0c;也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, HBase&＃xff0c;甚至是另外一个Source等等。Flume支持用户建立多级流&＃xff0c;也就是说&＃xff0c;多个agent可以协同工作&＃xff0c;并且支持Fan-in、Fan-out、Contextual Routing、Backup Routes&＃xff0c;这也正是Flume强大之处。

4.3、Flume可靠性

Flume 使用事务性的方式保证传送Event整个过程的可靠性。 Sink 必须在Event 被存入 Channel 后&＃xff0c;或者&＃xff0c;已经被传达到下一站agent里&＃xff0c;又或者&＃xff0c;已经被存入外部数据目的地之后&＃xff0c;才能把 Event 从 Channel 中 remove 掉。这样数据流里的 event 无论是在一个 agent 里还是多个 agent 之间流转&＃xff0c;都能保证可靠&＃xff0c;因为以上的事务保证了 event 会被成功存储起来。比如 Flume支持在本地保存一份文件 channel 作为备份&＃xff0c;而memory channel 将event存在内存 queue 里&＃xff0c;速度快&＃xff0c;但丢失的话无法恢复。

五、Flume使用场景

Flume在英文中的意思是水道&＃xff0c; 但Flume更像可以随意组装的消防水管&＃xff0c;下面根据官方文档&＃xff0c;展示几种Flow。

5.1、多个agent顺序连接

可以将多个Agent顺序连接起来&＃xff0c;将最初的数据源经过收集&＃xff0c;存储到最终的存储系统中。这是最简单的情况&＃xff0c;一般情况下&＃xff0c;应该控制这种顺序连接的Agent 的数量&＃xff0c;因为数据流经的路径变长了&＃xff0c;如果不考虑failover的话&＃xff0c;出现故障将影响整个Flow上的Agent收集服务。

5.2、多个Agent的数据汇聚到同一个Agent

这种情况应用的场景比较多&＃xff0c;比如要收集Web网站的用户行为日志&＃xff0c; Web网站为了可用性使用的负载集群模式&＃xff0c;每个节点都产生用户行为日志&＃xff0c;可以为每个节点都配置一个Agent来单独收集日志数据&＃xff0c;然后多个Agent将数据最终汇聚到一个用来存储数据存储系统&＃xff0c;如HDFS上。

5.3、多级流

Flume还支持多级流&＃xff0c;什么多级流&＃xff1f;结合在云开发中的应用来举个例子&＃xff0c;当syslog&＃xff0c; java&＃xff0c; nginx、 tomcat等混合在一起的日志流开始流入一个agent后&＃xff0c;可以agent中将混杂的日志流分开&＃xff0c;然后给每种日志建立一个自己的传输通道。

5.4、load balance功能

　　上图Agent1是一个路由节点&＃xff0c;负责将Channel暂存的Event均衡到对应的多个Sink组件上&＃xff0c;而每个Sink组件分别连接到一个独立的Agent上。

六、Flume核心组件

Flume主要由3个重要的组件构成&＃xff1a;
　　1&＃xff09;Source&＃xff1a; 完成对日志数据的收集&＃xff0c;分成transtion 和 event 打入到channel之中
　　　　 Flume提供了各种source的实现&＃xff0c;包括Avro Source、 Exce Source、 Spooling
　　　　Directory Source、 NetCat Source、 Syslog Source、 Syslog TCP Source、
　　　　Syslog UDP Source、 HTTP Source、 HDFS Source&＃xff0c; etc。
　　2&＃xff09;Channel&＃xff1a; Flume Channel主要提供一个队列的功能&＃xff0c;对source提供中的数据进行简单的缓存。
　　　　 Flume对于Channel&＃xff0c; 则提供了Memory Channel、 JDBC Chanel、 File Channel&＃xff0c;etc

　　3&＃xff09;Sink&＃xff1a; Flume Sink取出Channel中的数据&＃xff0c;进行相应的存储文件系统&＃xff0c;数据库&＃xff0c;或者提交到远程服务器。
　　　　包括HDFS sink、 Logger sink、 Avro sink、 File Roll sink、 Null sink、 HBasesink&＃xff0c; etc。

6.1、Source

Spool Source 如何使用&＃xff1f;
　　在实际使用的过程中&＃xff0c;可以结合log4j使用&＃xff0c;使用log4j的时候&＃xff0c;将log4j的文件分割机制设为1分钟一次&＃xff0c;将文件拷贝到spool的监控目录。

　　 log4j有一个TimeRolling的插件&＃xff0c;可以把log4j分割的文件到spool目录。基本实现了实时的监控。 Flume在传完文件之后&＃xff0c;将会修改文件的后缀&＃xff0c;变为.COMPLETED&＃xff08;后缀也可以在配置文件中灵活指定&＃xff09;

　　Exec Source 和Spool Source 比较
　　1&＃xff09; ExecSource可以实现对日志的实时收集&＃xff0c;但是存在Flume不运行或者指令执行出错时&＃xff0c;将无法收集到日志数据&＃xff0c;无法何证日志数据的完整性。
　　2&＃xff09; SpoolSource虽然无法实现实时的收集数据&＃xff0c;但是可以使用以分钟的方式分割文件&＃xff0c;趋近于实时。
　　3&＃xff09;总结&＃xff1a;如果应用无法实现以分钟切割日志文件的话&＃xff0c;可以两种收集方式结合使用。

6.2、Channel

1&＃xff09;MemoryChannel可以实现高速的吞吐&＃xff0c; 但是无法保证数据完整性
　　2&＃xff09;MemoryRecoverChannel在官方文档的建议上已经建义使用FileChannel来替换。
　　　　FileChannel保证数据的完整性与一致性。在具体配置不现的FileChannel时&＃xff0c;建议FileChannel设置的目录和程序日志文件保存的目录设成不同的磁盘&＃xff0c;以便提高效率。

6.3、Sink

Flume Sink在设置存储数据时&＃xff0c;可以向文件系统中&＃xff0c;数据库中&＃xff0c; hadoop中储数据&＃xff0c;在日志数据较少时&＃xff0c;可以将数据存储在文件系中&＃xff0c;并且设定一定的时间间隔保存数据。在日志数据较多时&＃xff0c;可以将相应的日志数据存储到Hadoop中&＃xff0c;便于日后进行相应的数据分析。

资料来源 &＃xff1a;https://www.jianshu.com/p/e1f1882b2d6d

推荐阅读

jar
mapreduce原理_MapReduce原理及WordCount实践

参考链接：https:www.cnblogs.comlaowangcp8961946.html一、MapReduce流程1.1Mapreduce整体流程： ... [详细]

蜡笔小新 2023-10-14 17:48:33
main
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
ip
Python工具安装教程及注意事项

本文介绍了在Windows系统下安装Python、setuptools、pip和virtualenv的步骤，以及安装过程中需要注意的事项。详细介绍了Python2.7.4和Python3.3.2的安装路径，以及如何使用easy_install安装setuptools。同时提醒用户在安装完setuptools后，需要继续安装pip，并注意不要将Python的目录添加到系统的环境变量中。最后，还介绍了通过下载ez_setup.py来安装setuptools的方法。 ... [详细]

蜡笔小新 2023-12-10 16:46:45
get
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
get
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
main
Webpack5内置处理图片资源的配置方法

本文介绍了在Webpack5中处理图片资源的配置方法。在Webpack4中，我们需要使用file-loader和url-loader来处理图片资源，但是在Webpack5中，这两个Loader的功能已经被内置到Webpack中，我们只需要简单配置即可实现图片资源的处理。本文还介绍了一些常用的配置方法，如匹配不同类型的图片文件、设置输出路径等。通过本文的学习，读者可以快速掌握Webpack5处理图片资源的方法。 ... [详细]

蜡笔小新 2023-12-14 15:39:51
eval
Perl的测试框架Test::Base简介及使用方法

本文介绍了Perl的测试框架Test::Base，它是一个数据驱动的测试框架，可以自动进行单元测试，省去手工编写测试程序的麻烦。与Test::More完全兼容，使用方法简单。以plural函数为例，展示了Test::Base的使用方法。 ... [详细]

蜡笔小新 2023-12-13 20:05:31
ip
深入解析Linux下的I/O多路转接epoll技术

本文深入解析了Linux下的I/O多路转接epoll技术，介绍了select和poll函数的问题，以及epoll函数的设计和优点。同时讲解了epoll函数的使用方法，包括epoll_create和epoll_ctl两个系统调用。 ... [详细]

蜡笔小新 2023-12-10 14:18:30
jar
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
get
Hadoop 源码学习笔记(4)Hdfs 数据读写流程分析

Hdfs的数据模型在对读写流程进行分析之前，我们需要先对Hdfs的数据模型有一个简单的认知。数据模型如上图所示，在NameNode中有一个唯一的FSDirectory类负责维护文件 ... [详细]

蜡笔小新 2023-10-17 11:27:29
main
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
main
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
get
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
get
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
get
Hadoop框架之HDFS的shell操作

既然HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]

蜡笔小新 2023-10-15 16:12:13