【Hadoop】10、Flume组件

作者：n大牙 | 来源：互联网 | 2023-05-18 04:56

目录Flume组件安装配置1、下载和解压Flume2、Flume组件部署3、使用Flume发送和接受信息Flume组件安装配置1、下载和解压Flume#传Flume安装包[root

Flume组件安装配置
- 1、下载和解压 Flume
- 2、Flume 组件部署
- 3、使用 Flume 发送和接受信息

Flume组件安装配置

1、下载和解压 Flume

# 传Flume安装包 [root@master ~]# cd /opt/software/ [root@master software]# ls apache-flume-1.6.0-bin.tar.gz hadoop-2.7.1.tar.gz jdk-8u152-linux-x64.tar.gz mysql-5.7.18.zip sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz apache-hive-2.0.0-bin.tar.gz hbase-1.2.1-bin.tar.gz mysql-5.7.18 mysql-connector-java-5.1.46.jar zookeeper-3.4.8.tar.gz # 使用root用户解压Flume到“/usr/local/src”路径 [root@master software]# tar xf /opt/software/apache-flume-1.6.0-bin.tar.gz -C /usr/local/src/ # 修改Flume安装路径文件夹名称 [root@master software]# cd /usr/local/src [root@master src]# mv apache-flume-1.6.0-bin flume # 修改文件夹归属用户和归属组为hadoop用户和hadoop组 [root@master src]# chown -R hadoop.hadoop /usr/local/src/

2、Flume 组件部署

# 编辑系统环境变量配置文件 [root@master src]# vi /etc/profile.d/flume.sh 添加： export FLUME_HOME=/usr/local/src/flume export PATH=${FLUME_HOME}/bin:$PATH # 切换hadoop用户 [root@master src]# su - hadoop # 查看是否成功 [hadoop@master ~]$ echo $PATH /usr/local/src/zookeeper/bin:/usr/local/src/sqoop/bin:/usr/local/src/hbase/bin:/usr/local/src/jdk/bin:/usr/local/src/hadoop/bin:/usr/local/src/hadoop/sbin:/usr/local/src/flume/bin:/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/usr/local/src/hive/bin:/home/hadoop/.local/bin:/home/hadoop/bin # 修改hbase-env.sh文件 [hadoop@master ~]$ vim /usr/local/src/hbase/conf/hbase-env.sh #export HBASE_CLASSPATH=/usr/local/src/hadoop/etc/hadoop/ 注释掉这一行的内容 # 拷贝 flume-env.sh.template 文件 [hadoop@master ~]$ cd /usr/local/src/flume/conf [hadoop@master conf]$ cp flume-env.sh.template flume-env.sh # 修改并配置 flume-env.sh 文件 [hadoop@master conf]$ vi flume-env.sh 修改： export JAVA_HOME=/usr/local/src/jdk # 启动hadoop [hadoop@master conf]$ start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh Starting namenodes on [master] hadoop@master's password: master: namenode running as process 50448. Stop it first. 192.168.100.30: datanode running as process 43460. Stop it first. 192.168.100.20: datanode running as process 46094. Stop it first. Starting secondary namenodes [0.0.0.0] hadoop@0.0.0.0's password: 0.0.0.0: secondarynamenode running as process 50670. Stop it first. starting yarn daemons resourcemanager running as process 50836. Stop it first. 192.168.100.30: nodemanager running as process 43584. Stop it first. 192.168.100.20: nodemanager running as process 46228. Stop it first. # 执行以上命令后要确保master上有NameNode、SecondaryNameNode、ResourceManager进程，在slave节点上要能看到DataNode、NodeManager进程 # master节点查看 [hadoop@master conf]$ jps 50448 NameNode 50836 ResourceManager 47502 QuorumPeerMain 50670 SecondaryNameNode 55855 Jps # slave1节点查看 [root@slave1 ~]# su - hadoop [hadoop@slave1 ~]$ jps 2070 DataNode 2364 Jps 2191 NodeManager [hadoop@slave1 ~]$ # slave2节点查看 [root@slave2 ~]# su - hadoop [hadoop@slave2 ~]$ jps 2166 NodeManager 2055 DataNode 2345 Jps [hadoop@slave2 ~]$ # 验证安装是否成功 [hadoop@master conf]$ flume-ng version Flume 1.6.0 Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git Revision: 2561a23240a71ba20bf288c7c2cda88f443c2080 Compiled by hshreedharan on Mon May 11 11:15:44 PDT 2015 From source with checksum b29e416802ce9ece3269d34233baf43f # 若能够正常查询 Flume 组件版本为1.6.0，则表示安装成功。

3、使用 Flume 发送和接受信息

# 在 Flume 安装目录中创建 simple-hdfs-flume.conf 文件 [hadoop@master conf]$ cd /usr/local/src/flume [hadoop@master flume]$ vi simple-hdfs-flume.conf a1.sources=r1 a1.sinks=k1 a1.channels=c1 a1.sources.r1.type=spooldir a1.sources.r1.spoolDir=/usr/local/src/hadoop/logs a1.sources.r1.fileHeader=true a1.sources.r1.deserializer.maxLineLength=30000 a1.sinks.k1.type=hdfs a1.sinks.k1.hdfs.path=hdfs://master:9000/tmp/flume a1.sinks.k1.hdfs.rollsize=1024000 a1.sinks.k1.hdfs.rollCount=0 a1.sinks.k1.hdfs.rollInterval=900 a1.sinks.k1.hdfs.useLocalTimeStamp=true a1.channels.c1.type=file a1.channels.c1.capacity=10000 a1.channels.c1.transactiOnCapacity=1000 a1.sources.r1.channels=c1 a1.sinks.k1.channel=c1 # 删除/tmp [hadoop@master flume]$ hdfs dfs -rm -r /tmp 22/05/08 22:16:44 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes. Deleted /tmp # 创建/tmp/flume [hadoop@master flume]$ hdfs dfs -mkdir -p /tmp/flume # 查看文件 [hadoop@master flume]$ hdfs dfs -ls / Found 5 items drwxr-xr-x - hadoop supergroup 0 2022-04-29 15:26 /hbase drwxr-xr-x - hadoop supergroup 0 2022-04-29 11:59 /input drwxr-xr-x - hadoop supergroup 0 2022-04-29 12:00 /output drwxr-xr-x - hadoop supergroup 0 2022-05-08 22:16 /tmp drwxr-xr-x - hadoop supergroup 0 2022-04-29 16:49 /user # 使用 flume-ng agent 命令加载 simple-hdfs-flume.conf 配置信息，启动 flume 传输数据 [hadoop@master flume]$ flume-ng agent --conf-file simple-hdfs-flume.conf --name a1 22/05/08 22:17:56 INFO hdfs.BucketWriter: Creating hdfs://master:9000/tmp/flume/FlumeData.1652019471497.tmp 22/05/08 22:17:56 INFO hdfs.BucketWriter: Closing hdfs://master:9000/tmp/flume/FlumeData.1652019471497.tmp 22/05/08 22:17:56 INFO hdfs.BucketWriter: Renaming hdfs://master:9000/tmp/flume/FlumeData.1652019471497.tmp to hdfs://master:9000/tmp/flume/FlumeData.1652019471497 22/05/08 22:17:56 INFO hdfs.BucketWriter: Creating hdfs://master:9000/tmp/flume/FlumeData.1652019471498.tmp 22/05/08 22:17:56 INFO hdfs.BucketWriter: Closing hdfs://master:9000/tmp/flume/FlumeData.1652019471498.tmp 22/05/08 22:17:56 INFO hdfs.BucketWriter: Renaming hdfs://master:9000/tmp/flume/FlumeData.1652019471498.tmp to hdfs://master:9000/tmp/flume/FlumeData.1652019471498 22/05/08 22:17:56 INFO hdfs.BucketWriter: Creating hdfs://master:9000/tmp/flume/FlumeData.1652019471499.tmp 22/05/08 22:17:56 INFO hdfs.BucketWriter: Closing hdfs://master:9000/tmp/flume/FlumeData.1652019471499.tmp 22/05/08 22:17:56 INFO hdfs.BucketWriter: Renaming hdfs://master:9000/tmp/flume/FlumeData.1652019471499.tmp to hdfs://master:9000/tmp/flume/FlumeData.1652019471499 22/05/08 22:17:56 INFO hdfs.BucketWriter: Creating hdfs://master:9000/tmp/flume/FlumeData.1652019471500.tmp 22/05/08 22:17:57 INFO hdfs.BucketWriter: Closing hdfs://master:9000/tmp/flume/FlumeData.1652019471500.tmp 22/05/08 22:17:57 INFO hdfs.BucketWriter: Renaming hdfs://master:9000/tmp/flume/FlumeData.1652019471500.tmp to hdfs://master:9000/tmp/flume/FlumeData.1652019471500 22/05/08 22:17:57 INFO hdfs.BucketWriter: Creating hdfs://master:9000/tmp/flume/FlumeData.1652019471501.tmp 22/05/08 22:17:57 INFO hdfs.BucketWriter: Closing hdfs://master:9000/tmp/flume/FlumeData.1652019471501.tmp 22/05/08 22:17:57 INFO hdfs.BucketWriter: Renaming hdfs://master:9000/tmp/flume/FlumeData.1652019471501.tmp to hdfs://master:9000/tmp/flume/FlumeData.1652019471501 22/05/08 22:17:57 INFO hdfs.BucketWriter: Creating hdfs://master:9000/tmp/flume/FlumeData.1652019471502.tmp 22/05/08 22:17:57 INFO hdfs.BucketWriter: Closing hdfs://master:9000/tmp/flume/FlumeData.1652019471502.tmp 22/05/08 22:17:57 INFO hdfs.BucketWriter: Renaming hdfs://master:9000/tmp/flume/FlumeData.1652019471502.tmp to hdfs://master:9000/tmp/flume/FlumeData.1652019471502 22/05/08 22:17:57 INFO hdfs.BucketWriter: Creating hdfs://master:9000/tmp/flume/FlumeData.1652019471503.tmp 22/05/08 22:17:57 INFO hdfs.BucketWriter: Closing hdfs://master:9000/tmp/flume/FlumeData.1652019471503.tmp 22/05/08 22:17:57 INFO hdfs.BucketWriter: Renaming hdfs://master:9000/tmp/flume/FlumeData.1652019471503.tmp to hdfs://master:9000/tmp/flume/FlumeData.1652019471503 # 查看 Flume 传输到 HDFS 的文件 [hadoop@master flume]$ hdfs dfs -ls /tmp/flume -rw-r--r-- 2 hadoop supergroup 1329 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471536 -rw-r--r-- 2 hadoop supergroup 1479 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471537 -rw-r--r-- 2 hadoop supergroup 1360 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471538 -rw-r--r-- 2 hadoop supergroup 1249 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471539 -rw-r--r-- 2 hadoop supergroup 1349 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471540 -rw-r--r-- 2 hadoop supergroup 1550 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471541 -rw-r--r-- 2 hadoop supergroup 1241 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471542 -rw-r--r-- 2 hadoop supergroup 1372 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471543 -rw-r--r-- 2 hadoop supergroup 1362 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471544 -rw-r--r-- 2 hadoop supergroup 1485 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471545 -rw-r--r-- 2 hadoop supergroup 17253 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471546 -rw-r--r-- 2 hadoop supergroup 1296 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471547 -rw-r--r-- 2 hadoop supergroup 1285 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471548 -rw-r--r-- 2 hadoop supergroup 1447 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471549 -rw-r--r-- 2 hadoop supergroup 1363 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471550 -rw-r--r-- 2 hadoop supergroup 1246 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471551 -rw-r--r-- 2 hadoop supergroup 1366 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471552 -rw-r--r-- 2 hadoop supergroup 1630 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471553 -rw-r--r-- 2 hadoop supergroup 1250 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471554 -rw-r--r-- 2 hadoop supergroup 1425 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471555 -rw-r--r-- 2 hadoop supergroup 1329 2022-05-08 22:17 /tmp/flume/FlumeData.1652019471556 …… # 若能查看到 HDFS 上/tmp/flume 目录有传输的数据文件，则表示数据传输成功。

使用 flume-ng agent 命令加载 simple-hdfs-flume.conf 配置信息

查看 Flume 传输到 HDFS 的文件：

浏览器查看：http://master:50070

查看文件：

声明：未经许可，不得转载

推荐阅读

schema
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
export
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
sum
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
version
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
version
Maven进阶指南：高效管理项目外部依赖库

本文深入探讨了如何利用Maven高效管理项目中的外部依赖库。通过介绍Maven的官方依赖搜索地址（），详细讲解了依赖库的添加、版本管理和冲突解决等关键操作。此外，还提供了实用的配置示例和最佳实践，帮助开发者优化项目构建流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-09 11:17:43
version
Android中将独立SO库封装进JAR包并实现SO库的加载与调用

在Android开发中，将独立的SO库封装进JAR包并实现其加载与调用是一个常见的需求。本文详细介绍了如何将SO库嵌入到JAR包中，并确保在外部应用调用该JAR包时能够正确加载和使用这些SO库。通过这种方式，开发者可以更方便地管理和分发包含原生代码的库文件，提高开发效率和代码复用性。文章还探讨了常见的问题及其解决方案，帮助开发者避免在实际应用中遇到的坑。 ... [详细]

蜡笔小新 2024-11-07 14:28:55
go
Flutter项目首次运行遭遇错误：Gradle任务assembleDebug执行失败，退出状态码为1。

今天我开始学习Flutter，并在Android Studio 3.5.3中创建了一个新的Flutter项目。然而，在首次尝试运行时遇到了问题，Gradle任务 `assembleDebug` 执行失败，退出状态码为1。经过初步排查，发现可能是由于依赖项配置不当或Gradle版本不兼容导致的。为了解决这个问题，我计划检查项目的 `build.gradle` 文件，确保所有依赖项和插件版本都符合要求，并尝试更新Gradle版本。此外，还将验证环境变量配置是否正确，以确保开发环境的稳定性。 ... [详细]

蜡笔小新 2024-11-06 20:30:44
spring
掌握 Git 与 SVN 的高效使用技巧，轻松应对版本控制挑战

本文深入探讨了 Git 与 SVN 的高效使用技巧，旨在帮助开发者轻松应对版本控制中的各种挑战。通过详细解析两种工具的核心功能与最佳实践，读者将能够更好地掌握版本管理的精髓，提高开发效率。 ... [详细]

蜡笔小新 2024-11-06 11:05:37
version
LeetCode 1736: 替换隐藏数字获取最晚时间

本文详细介绍了如何通过替换隐藏数字来获取最晚时间，适用于 LeetCode 1736 题目。 ... [详细]

蜡笔小新 2024-11-14 18:45:57
go
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
version
CentOS 6.4 安装 QT5 时无法找到 GLIBCXX_3.4.15 的解决方案

在 CentOS 6.4 上安装 QT5 并启动 Qt Creator 时，可能会遇到缺少 GLIBCXX_3.4.15 的问题。这是由于系统中的 libstdc++.so.6 版本过低。本文将详细介绍如何通过更新 GCC 版本来解决这一问题。 ... [详细]

蜡笔小新 2024-11-13 16:52:41
version
Pentaho Kettle 中 RowMetaInterface.writeMeta 方法详解与代码示例

本文详细介绍了 Pentaho Kettle 中 RowMetaInterface.writeMeta 方法的使用，并提供了多个代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-11-13 16:21:25
match
Hibernate实战笔记14：深入解析反向工程技术

在处理遗留数据库的映射时，反向工程是一个重要的初始步骤。由于实体模式已经在数据库系统中存在，Hibernate 提供了自动化工具来简化这一过程，帮助开发人员快速生成持久化类和映射文件。通过反向工程，可以显著提高开发效率并减少手动配置的错误。此外，该工具还支持对现有数据库结构进行分析，自动生成符合 Hibernate 规范的配置文件，从而加速项目的启动和开发周期。 ... [详细]

蜡笔小新 2024-11-04 18:29:37
nodejs
CentOS 7环境下Jenkins的安装与前后端应用部署详解

CentOS 7环境下Jenkins的安装与前后端应用部署详解 ... [详细]

蜡笔小新 2024-11-04 16:46:02
go
如何在IntelliJ IDEA中生成Maven项目的所有Jar包依赖关系图

本文详细介绍了如何在IntelliJ IDEA中生成Maven项目的完整Jar包依赖关系图。通过具体步骤和示例，帮助开发者清晰地理解并掌握这一重要功能，适合希望深入了解Maven依赖管理的读者学习参考。 ... [详细]

蜡笔小新 2024-11-04 15:45:00

n大牙

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章