当前位置: 开发笔记 > 编程语言 > 正文

flume学习含安装

作者：温柔842_259 | 来源：互联网 | 2023-09-11 16:10

1.Flume是什么：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式

1.Flume是什么&＃xff1a;Flume是Cloudera提供的一个高可用的&＃xff0c;高可靠的&＃xff0c;分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构&＃xff0c;灵活简单。

在这里插入图片描述

Flume组成架构

在这里插入图片描述

下面我们来详细介绍一下Flume架构中的组件。

1&＃xff09; Agent&＃xff1a;

是一个jvm程序&＃xff0c;它以事件的形式将数据从源头送至目的地&＃xff0c;`是Flume数据传输的基本单元`

Agent 主要有三个部分组成&＃xff1a;Source、Channel、Sinl

2&＃xff09; Source&＃xff1a;

Source是负责接收数据到Flume Agent的组建。Source组建可以处理各种类型、各种格式的日志数据&＃xff0c;包括avro、thirft、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

3&＃xff09; Channel&＃xff1a;

Channel是位于Source和Sink之间的缓冲器

因此&＃xff0c;Channel允许SOurce和Sink运作在不同的速率上。Channel是线程安全的&＃xff0c;可以同时处理几个Source的写入操作和几个Sink的读取操作

Flume自带两种Channel&＃xff1a;Memory Channel 和FIle Channel。

Memory Channel&＃xff1a;是内存中的队列。Memory Channel在不需要关系数据丢失的情况下适合用。如果需要关系数据丢失&＃xff0c;那么Memory Channel就不应该使用&＃xff0c;因为程序死亡、机器宕机货值重启都会导致数据丢失。

File Channel 将所有事件写到磁盘。因此在程序关系货值机器宕机的情况下不会丢失数据。

4&＃xff09; Sink&＃xff1a;

Sink 不断地轮询Channel中的事件且批量地移除他们&＃xff0c;并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

Sink是完全事务性的。在从Channel批量删除数据之间&＃xff0c;每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent&＃xff0c;Sink就利用Channel提交事务。事务一旦被提交&＃xff0c;该Channel从自己的内部缓冲区删除事件。

Sink组建目的地包括&＃xff1a;hdfs、logger、avro、thrift、ipc、file、null、Hbase、solr、自定义。

Event拓扑结构

Flume的拓扑结构如图

Flume Agent连接

在这里插入图片描述

单source&＃xff0c;多channel、sink

在这里插入图片描述

Flume负载均衡

在这里插入图片描述

Flume Agent聚合

在这里插入图片描述

Flume Agent内部原理

在这里插入图片描述

Flume安装

1) 官网

2) 文档查看地址

3) 下载地址

安装部署

1&＃xff09;将apache-flume-1.9.0-bin.tar.gz上传到linux的/usr/local/目录下

2&＃xff09;解压apache-flume-1.9.0-bin.tar.gz到/usr/local/目录下

$ tar -zxf apache-flume-1.9.0-bin.tar.gz -C /usr/local/

3&＃xff09;修改apache-flume-1.9.0-bin的名称为flume

$ mv apache-flume-1.9.0-bin flume

4&＃xff09;将flume/conf下的flume-env.sh.template文件修改为flume-env.sh&＃xff0c;并配置flume-env.sh文件

$ mv flume-env.sh.template flume-env.sh $ vi flume-env.sh export JAVA_HOME&＃61;/home/hduser/software/jdk1.8.0_221

案例&＃xff1a;

1&＃xff09;

首先&＃xff0c;Flume监控本机44444端口&＃xff0c;然后通过telnet工具向本机44444端口发送消息&＃xff0c;最后Flume将监听的数据实时显示在控制台

需求分析&＃xff1a;

3&＃xff09;实现步骤&＃xff1a;

安装telnet工具
检查是否已经安装telnet

rpm -qa | grep telnet

如果什么都没有&＃xff0c;就是没有安装接着下一步吧。
安装telnet及telnet-server&＃xff0c;注意&＃xff0c;需要root权限来安装。&＃xff08;好像需要先按照server&＃xff09;

yum install telnet-server -y yum install telnet -y

因为装好telnet服务之后&＃xff0c;默认是不开启服务的&＃xff0c;下面我们需要修改文件来开启服务。

注意&＃xff1a;centos7的telnet配置文件是&＃xff1a;/etc/xinetd.conf。centos7以前的是/etc/xinetd.d/telnet

vim /etc/xinetd.d/telnet

修改 disable &＃61; yes 为 disable &＃61; no

需要激活xinetd服务

systemctl start xinetd.service

让xinetd开机自启

systemctl enable xinetd.service

启动telnet服务

systemctl restart telnet.socket

设置让telnet服务开机自启

systemctl enable telnet.socket

测试telnet是否成功开启

telnet localhost

判断44444端口是否被占用

sudo netstat -tunlp | grep 44444 功能描述&＃xff1a;netstat命令是一个监控TCP/IP网络的非常有用的工具&＃xff0c;它可以显示路由表、实际的网络连接以及每一个网络接口设备的状态信息。基本语法&＃xff1a;netstat [选项] 选项参数&＃xff1a;-t或--tcp&＃xff1a;显示TCP传输协议的连线状况&＃xff1b; -u或--udp&＃xff1a;显示UDP传输协议的连线状况&＃xff1b;-n或--numeric&＃xff1a;直接使用ip地址&＃xff0c;而不通过域名服务器&＃xff1b; -l或--listening&＃xff1a;显示监控中的服务器的Socket&＃xff1b; -p或--programs&＃xff1a;显示正在使用Socket的程序识别码和程序名称&＃xff1b;

创建Flume Agent配置文件flume-telnet-logger.conf

在flume目录下创建job文件夹并进入job文件夹

mkdir jobconf cd jobconf/

在job文件夹下创建Flume Agent配置文件flume-telnet-logger.conf

touch flume-telnet-logger.conf

在flume-telnet-logger.conf文件中添加如下内容。

vim flume-telnet-logger.conf

添加内容如下&＃xff1a;

# Name the components on this agent a1.sources &＃61; r1 a1.sinks &＃61; k1 a1.channels &＃61; c1# Describe/configure the source a1.sources.r1.type &＃61; netcat a1.sources.r1.bind &＃61; localhost a1.sources.r1.port &＃61; 44444# Describe the sink a1.sinks.k1.type &＃61; logger# Use a channel which buffers events in memory a1.channels.c1.type &＃61; memory a1.channels.c1.capacity &＃61; 1000 a1.channels.c1.transactionCapacity &＃61; 100# Bind the source and sink to the channel a1.sources.r1.channels &＃61; c1 a1.sinks.k1.channel &＃61; c1

运行

先开启flume监听端口

bin/flume-ng agent --conf conf/ --name a1 --conf-file jobconf/flume-telnet-logger.conf -Dflume.root.logger&＃61;INFO,console

参数说明&＃xff1a;
–conf conf/ &＃xff1a;表示配置文件存储在conf/目录
–name a1 &＃xff1a;表示给agent起名为a1
–conf-file job/flume-telnet.conf &＃xff1a;flume本次启动读取的配置文件是在job文件夹下的flume-telnet.conf文件。
-Dflume.root.logger&＃61;&＃61;INFO,console &＃xff1a;-D表示flume运行时动态修改flume.root.logger参数属性值&＃xff0c;并将控制台日志打印级别设置为INFO级别。日志级别包括:log、info、warn、error。

使用telnet工具向本机的44444端口发送内容

telnet localhost 44444

在Flume监听页面观察接收数据情况

案例 2&＃xff09;实时读取本地文件到HDFS案例

1&＃xff0e;Flume要想将数据输出到HDFS&＃xff0c;必须持有Hadoop相关jar包

将

commons-configuration-1.6.jar、 hadoop-auth-2.7.2.jar、 hadoop-common-2.7.2.jar、 hadoop-hdfs-2.7.2.jar、 commons-io-2.4.jar、 htrace-core-3.1.0-incubating.jar

拷贝到/opt/module/flume/lib文件夹下。

2&＃xff0e;创建flume-file-hdfs.conf文件

创建文件

touch flume-file-hdfs.conf

注&＃xff1a;要想读取Linux系统中的文件&＃xff0c;就得按照Linux命令的规则执行命令。由于Hive日志在Linux系统中所以读取文件的类型选择&＃xff1a;exec即execute执行的意思。表示执行Linux命令来读取文件。

vim flume-file-hdfs.conf

添加如下内容

# Name the components on this agent a2.sources &＃61; r2 a2.sinks &＃61; k2 a2.channels &＃61; c2# Describe/configure the source a2.sources.r2.type &＃61; exec a2.sources.r2.command &＃61; tail -F /udr/local/hive/logs/hive.log a2.sources.r2.shell &＃61; /bin/bash -c# Describe the sink a2.sinks.k2.type &＃61; hdfs a2.sinks.k2.hdfs.path &＃61; hdfs://chun1:9000/flume/%Y%m%d/%H #上传文件的前缀 a2.sinks.k2.hdfs.filePrefix &＃61; logs- #是否按照时间滚动文件夹 a2.sinks.k2.hdfs.round &＃61; true #多少时间单位创建一个新的文件夹 a2.sinks.k2.hdfs.roundValue &＃61; 1 #重新定义时间单位 a2.sinks.k2.hdfs.roundUnit &＃61; hour #是否使用本地时间戳 a2.sinks.k2.hdfs.useLocalTimeStamp &＃61; true #积攒多少个Event才flush到HDFS一次 a2.sinks.k2.hdfs.batchSize &＃61; 1000 #设置文件类型&＃xff0c;可支持压缩 a2.sinks.k2.hdfs.fileType &＃61; DataStream #多久生成一个新的文件 a2.sinks.k2.hdfs.rollInterval &＃61; 600 #设置每个文件的滚动大小 a2.sinks.k2.hdfs.rollSize &＃61; 134217700 #文件的滚动与Event数量无关 a2.sinks.k2.hdfs.rollCount &＃61; 0 #最小冗余数 a2.sinks.k2.hdfs.minBlockReplicas &＃61; 1# Use a channel which buffers events in memory a2.channels.c2.type &＃61; memory a2.channels.c2.capacity &＃61; 1000 a2.channels.c2.transactionCapacity &＃61; 100# Bind the source and sink to the channel a2.sources.r2.channels &＃61; c2 a2.sinks.k2.channel &＃61; c2

3&＃xff0e;执行监控配置

bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

4&＃xff0e;开启Hadoop和Hive并操作Hive产生日志

sbin/start-dfs.sh sbin/start-yarn.sh bin/hive hive >

5&＃xff0e;在HDFS上查看文件。

案例3&＃xff09; 实时读取目录文件到HDFS案例

使用Flume监听整个目录的文件

3&＃xff09;实现步骤&＃xff1a;
1&＃xff0e;创建配置文件flume-dir-hdfs.conf
创建一个文件

touch flume-dir-hdfs.conf

打开文件

vim flume-dir-hdfs.conf

添加如下内容

a3.sources &＃61; r3 a3.sinks &＃61; k3 a3.channels &＃61; c3# Describe/configure the source a3.sources.r3.type &＃61; spooldir a3.sources.r3.spoolDir &＃61; /usr/local/flume-1.9.0/jobconf/upload a3.sources.r3.fileSuffix &＃61; .COMPLETED a3.sources.r3.fileHeader &＃61; true #忽略所有以.tmp结尾的文件&＃xff0c;不上传 a3.sources.r3.ignorePattern &＃61; ([^ ]*\.tmp)# Describe the sink a3.sinks.k3.type &＃61; hdfs a3.sinks.k3.hdfs.path &＃61; hdfs://hadoop102:9000/flume/upload/%Y%m%d/%H #上传文件的前缀 a3.sinks.k3.hdfs.filePrefix &＃61; upload- #是否按照时间滚动文件夹 a3.sinks.k3.hdfs.round &＃61; true #多少时间单位创建一个新的文件夹 a3.sinks.k3.hdfs.roundValue &＃61; 1 #重新定义时间单位 a3.sinks.k3.hdfs.roundUnit &＃61; minute #是否使用本地时间戳 a3.sinks.k3.hdfs.useLocalTimeStamp &＃61; true #积攒多少个Event才flush到HDFS一次 a3.sinks.k3.hdfs.batchSize &＃61; 100 #设置文件类型&＃xff0c;可支持压缩 a3.sinks.k3.hdfs.fileType &＃61; DataStream #多久生成一个新的文件 a3.sinks.k3.hdfs.rollInterval &＃61; 600 #设置每个文件的滚动大小大概是128M a3.sinks.k3.hdfs.rollSize &＃61; 134217700 #文件的滚动与Event数量无关 a3.sinks.k3.hdfs.rollCount &＃61; 0 #最小冗余数 a3.sinks.k3.hdfs.minBlockReplicas &＃61; 1# Use a channel which buffers events in memory a3.channels.c3.type &＃61; memory a3.channels.c3.capacity &＃61; 1000 a3.channels.c3.transactionCapacity &＃61; 100# Bind the source and sink to the channel a3.sources.r3.channels &＃61; c3 a3.sinks.k3.channel &＃61; c3

2. 启动监控文件夹命令

bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-dir-hdfs.conf

说明&＃xff1a; 在使用Spooling Directory Source时
1)不要在监控目录中创建并持续修改文件
2)上传完成的文件会以.COMPLETED结尾
3)被监控文件夹每500毫秒扫描一次文件变动

3. 向upload文件夹中添加文件

在/opt/module/flume目录下创建upload文件夹

mkdir upload

向upload文件夹中添加文件

touch atguigu.txt touch atguigu.tmp touch atguigu.log

4. 查看HDFS上的数据

推荐阅读

int
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
int
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
int
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
spring
基于Spring Cloud与Spring Boot2的分布式微服务云架构快速开发平台

该平台旨在为大型企业提供一个高效、灵活且可扩展的分布式微服务架构解决方案。它采用模块化、微服务化和热部署的设计理念，结合当前最先进且无商业限制的主流开源技术，如Spring Cloud、Spring Boot2、MyBatis、OAuth2和Element UI，实现前后端分离的系统管理平台。 ... [详细]

蜡笔小新 2024-12-26 14:04:12
timestamp
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
int
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
int
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
int
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
int
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
list
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
int
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
int
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
int
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
int
VSCode与Gitee集成：项目提交的高效实践

本文介绍如何利用VSCode内置的Git工具将项目提交到Gitee，简化Git命令的使用，提升代码管理效率。同时分享一些常见的踩坑经验和解决方案。 ... [详细]

蜡笔小新 2024-12-26 10:16:21
int
Linux 透明防火墙（网桥模式）的部署与配置

本文介绍如何在现有网络中部署基于Linux系统的透明防火墙（网桥模式），以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明，确保内部网络的安全性和稳定性。 ... [详细]

蜡笔小新 2024-12-25 13:17:38

温柔842_259

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

flume学习含安装

1.Flume是什么&＃xff1a;Flume是Cloudera提供的一个高可用的&＃xff0c;高可靠的&＃xff0c;分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构&＃xff0c;灵活简单。

Flume组成架构

下面我们来详细介绍一下Flume架构中的组件。

1&＃xff09; Agent&＃xff1a;

是一个jvm程序&＃xff0c;它以事件的形式将数据从源头送至目的地&＃xff0c;是Flume数据传输的基本单元

Agent 主要有三个部分组成&＃xff1a;Source、Channel、Sinl

2&＃xff09; Source&＃xff1a;

Source是负责接收数据到Flume Agent的组建。Source组建可以处理各种类型、各种格式的日志数据&＃xff0c;包括avro、thirft、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

3&＃xff09; Channel&＃xff1a;

Channel是位于Source和Sink之间的缓冲器

因此&＃xff0c;Channel允许SOurce和Sink运作在不同的速率上。Channel是线程安全的&＃xff0c;可以同时处理几个Source的写入操作和几个Sink的读取操作

Flume自带两种Channel&＃xff1a;Memory Channel 和FIle Channel。

Memory Channel&＃xff1a;是内存中的队列。Memory Channel在不需要关系数据丢失的情况下适合用。如果需要关系数据丢失&＃xff0c;那么Memory Channel就不应该使用&＃xff0c;因为程序死亡、机器宕机货值重启都会导致数据丢失。

File Channel 将所有事件写到磁盘。因此在程序关系货值机器宕机的情况下不会丢失数据。

4&＃xff09; Sink&＃xff1a;

Sink 不断地轮询Channel中的事件且批量地移除他们&＃xff0c;并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

Sink组建目的地包括&＃xff1a;hdfs、logger、avro、thrift、ipc、file、null、Hbase、solr、自定义。

Event拓扑结构

Flume的拓扑结构如图

Flume Agent连接

单source&＃xff0c;多channel、sink

Flume负载均衡

Flume Agent聚合

Flume Agent内部原理

Flume安装

1) 官网

2) 文档查看地址

3) 下载地址

1&＃xff09;将apache-flume-1.9.0-bin.tar.gz上传到linux的/usr/local/目录下

2&＃xff09;解压apache-flume-1.9.0-bin.tar.gz到/usr/local/目录下

3&＃xff09;修改apache-flume-1.9.0-bin的名称为flume

4&＃xff09;将flume/conf下的flume-env.sh.template文件修改为flume-env.sh&＃xff0c;并配置flume-env.sh文件

案例&＃xff1a;

1&＃xff09;

首先&＃xff0c;Flume监控本机44444端口&＃xff0c;然后通过telnet工具向本机44444端口发送消息&＃xff0c;最后Flume将监听的数据实时显示在控制台

需求分析&＃xff1a;

3&＃xff09;实现步骤&＃xff1a;

注意&＃xff1a;centos7的telnet配置文件是&＃xff1a;/etc/xinetd.conf。centos7以前的是/etc/xinetd.d/telnet

修改 disable &＃61; yes 为 disable &＃61; no

需要激活xinetd服务

让xinetd开机自启

启动telnet服务

设置让telnet服务开机自启

测试telnet是否成功开启

判断44444端口是否被占用

创建Flume Agent配置文件flume-telnet-logger.conf

运行

先开启flume监听端口

使用telnet工具向本机的44444端口发送内容

案例 2&＃xff09;实时读取本地文件到HDFS案例

1&＃xff0e;Flume要想将数据输出到HDFS&＃xff0c;必须持有Hadoop相关jar包

2&＃xff0e;创建flume-file-hdfs.conf文件

3&＃xff0e;执行监控配置

4&＃xff0e;开启Hadoop和Hive并操作Hive产生日志

5&＃xff0e;在HDFS上查看文件。

案例3&＃xff09; 实时读取目录文件到HDFS案例

2. 启动监控文件夹命令

3. 向upload文件夹中添加文件

4. 查看HDFS上的数据

是一个jvm程序&＃xff0c;它以事件的形式将数据从源头送至目的地&＃xff0c;`是Flume数据传输的基本单元`