大数据3Flume收集数据+落地HDFS

作者：飘泊的牛小盆友 | 来源：互联网 | 2023-05-18 01:44

flume日志收集系统Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据

flume

　　日志收集系统

　　　　Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

　　　　当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flume-og有很大不同，使用时请注意区分。

　　大数据3-Flume收集数据+落地HDFS

　　基本概念

　　　　Event 事件

　　　　　　把读取的一条日志信息包装成一个对象，这个对象就叫Flume Event。

　　　　　　本质就是一个json字符串，如：{head:info,body:info}

　　　　Agent 代理

　　　　　　代理，是一个java进程（JVM），它承载event，从外部源传递到下一个目标的组件。

　　　　　　主要由3部分组成：Source、Channel、Sink。

　　　　Source 数据源

　　　　　　Source组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence 　　　　　　generator、syslog、http、legacy、自定义。

　　　　Channel 数据通道

　　　　　　Source组件把数据收集来以后，临时存放在channel中，即channel组件在agent中是专门用来存放临时数据的。对采集到的数据进行简单的缓存，可以存放在memory、jdbc、file等等。

　　　　Sink 数据汇聚点

　　　　　　Sink组件是用于把数据发送到目的地的组件，目的地包括hdfs、logger、avro、thrift、ipc、file、null、Hbase、solr、自定义。

　　　　组合过程

　　　　　　为了安全性，数据的传输是将数据封装成一个Event事件。Source会将从服务器收集的数据封装成Event，然后存储在缓冲区Channel，Channel的结构与队列比较相似（先进先出）。Sink就会从缓冲区Channel中抓取数据，抓取到数据时，就会把Channel中的对应数据删除，并且把抓取的数据写入HDFS等目标地址或者也可以是下一个Source。一定是当数据传输成功后，才会删除缓冲区Channel中的数据，这是为了可靠性。当接收方Crash（崩溃）时，以便可以重新发送数据。

大数据3-Flume收集数据+落地HDFS

　　2、可靠性

　　　　当节点出现故障时，日志能够被传送到其他节点上而不会丢失。

　　　　Flume提供了三种级别的可靠性保障，从强到弱依次分别为：

　　　　　　end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。）

　　　　　　Store on failure（这也是Scribe-Facebook开源的日志收集系统-采用的策略，当数据接收方crash（崩溃）时，将数据写到本地，待恢复后，继续发送）

　　　　　　Besteffort（数据发送到接收方后，不会进行确认）

　　3、需要安装jdk

jdk安装

　　4、安装flume

安装flume

　　5、目录结构

目录结构

　　　　大数据3-Flume收集数据+落地HDFS

　　Source组件

　　　　　　重点掌握Avro Source和Spooling Directory Source。

＃单节点Flume配置
＃命名Agent a1的组件
a1.sources  =  r1
a1.sinks  =  k1
a1.channels  =  c1

＃描述/配置Source
a1.sources.r1.type  =  netcat        #内置类型，接收来自网络的数据
a1.sources.r1.bind  =  0.0.0.0            #等同于网络的127.0.0.1
a1.sources.r1.port  =  22222        #服务的端口号

＃描述Sink
a1.sinks.k1.type  =  logger        #内置类型

＃描述内存Channel
a1.channels.c1.type  =  memory    #保存数据到内存
a1.channels.c1.capacity  =  1000     #容量最大存放1000条日志
a1.channels.c1.transactionCapacity  =  100    #事务中的一批数据100条

＃为Channle绑定Source和Sink
a1.sources.r1.channels  =  c1        #一个source可以绑定到多个channel
a1.sinks.k1.channel  =  c1        #一个sink只能绑定到一个channel

flume.properties

推荐阅读

java
Flume 开源分布式日志收集系统

为什么80%的码农都做不了架构师？Flume--开源分布式日志收集系统Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统 ... [详细]

蜡笔小新 2023-10-11 13:45:25
go
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
go
mongodb复制集部署文档

mongodb复制集部署文档 ... [详细]

蜡笔小新 2024-09-30 09:07:42
java
伸缩性|发生_分布式文件系统设计，该从哪些方面考虑？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了分布式文件系统设计，该从哪些方面考虑？相关的知识，希望对你有一定的参考价值。点击上方关注“ ... [详细]

蜡笔小新 2023-10-16 17:43:40
java
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
java
python中抽象类和抽象方法_python抽象类+抽象方法实现接口(interface)

#python没有类似于java和C#的接口类(interface)，需要使用抽象类和抽象方法来实现接口功能#!usrbinenvpython#_*_coding ... [详细]

蜡笔小新 2023-10-14 22:37:24
java
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
web
开发笔记:(源码开放) React + webpack3 多页面应用及常见问题解答

本文由编程笔记#小编为大家整理，主要介绍了(源码开放)React+webpack3多页面应用及常见问题解答相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-30 18:22:40
client
XShell连接不了虚拟机

本机安装好虚拟机和centeros;使用xshell连接：linuxCouldnotconnectto&#39;127.0.0.1&#39;(por ... [详细]

蜡笔小新 2024-09-30 15:43:12
client
PHPcURL获取微信公众号access_token的实例php实例

PHPcURL获取微信公众号access_token的实例php实例:这篇文章主要介绍了PHPcURL获取微信公众号access_token的实例,需要的朋友可以参考下1.开发微信 ... [详细]

蜡笔小新 2024-09-30 13:04:56
java
javascript – 调用函数和引用函数之间的区别？

看下面的代码：window.onload=someFunction;很多时候我看到使用这种代码,甚至我使用相同的代码.但是, ... [详细]

蜡笔小新 2024-09-30 12:10:21
java
mysql oneproxy稳定吗_Mysql 中间件 oneProxy总结

建议使用之前把官方的文档全部通读一遍这里提供一个我的网盘地址oneproxy百度网盘0.先对oneproxy有个大概的了解，知道他所处的位置1.MySQL服务器创建t ... [详细]

蜡笔小新 2024-09-28 20:59:09
config
配置OracleACFS集群文件系统

配置OracleACFS集群文件系统 2012-07-1010:18:39标签：asmacfs版权声明：原创作品，谢绝转载！否则将追究法律责任。 ... [详细]

蜡笔小新 2024-09-28 16:33:10
config
mysql mmm搭建_搭建mysqlmmm高可用MySQL集群

实验需求：配置mysql-mmm，实现mysql的高可用MySQL-MMM实现MySQL高可用http:www.linuxidc.comLinux201 ... [详细]

蜡笔小新 2024-09-27 13:31:55
go
大数据的明天将驶向何方？

http:www.infoq.comcnarticleswhere-will-big-data--tomorrow-sail-to大数据的明天将驶向何方？作者 36Kr 发布于20 ... [详细]

蜡笔小新 2023-10-11 15:36:45

飘泊的牛小盆友

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章