flume安装和使用flume1.5传输数据(日志)到hadoop2.2

作者：姚扰腾 | 来源：互联网 | 2023-10-13 06:26

安装flume1.51.下载安装包（1）官网下载apache-flume-1.5.0-bin.tar.gzapache-flume-1.5.0-src

安装flume1.5

1.下载安装包
&＃xff08;1&＃xff09;官网下载
apache-flume-1.5.0-bin.tar.gz
apache-flume-1.5.0-src.tar.gz
&＃xff08;2&＃xff09;百度网盘下载
链接: http://pan.baidu.com/s/1dDip8RZ 密码: 268r

我们走到这一步&＃xff0c;我们会想到一个问题&＃xff0c;我的电脑是32位的&＃xff0c;不知道能否安装&＃xff1f;如果我的电脑是64位的&＃xff0c;能否安装。之前我们装的hadoop就分为32位和64位&＃xff0c;想到这个问题是正常的&＃xff0c;但是这里不用担心&＃xff0c;因为我们下载的是二进制包&＃xff0c;也就是说你32位和64位都可以安装。

2.分别解压&＃xff1a;

下载之后&＃xff0c;我们看到下面两个包&＃xff1a;

&＃xff08;1&＃xff09;上传Linux

上面两个包&＃xff0c;可以下载到window&＃xff0c;然后通过WinSCP上传。

&＃xff08;2&＃xff09;解压包

解压apache-flume-1.5.0-bin.tar.gz&＃xff0c;
解压到usr文件夹下面

sudo tar zxvf apache-flume-1.5.0-bin.tar.gz

解压apache-flume-1.5.0-src.tar.gz&＃xff0c;
解压到usr文件夹下面

sudo tar zxvf apache-flume-1.5.0-src.tar.gz

(3) src里面文件内容&＃xff0c;覆盖解压后bin文件里面的内容

sudo cp -ri apache-flume-1.5.0-src/* apache-flume-1.5.0-bin

(4)重命名

mv apache-flume-1.5.0-bin/ flume

3.配置环境变量&＃xff1a;

配置环境变量生效

source /etc/environment

3.建立配置文件

这里面的配置文件还是比较特别的&＃xff0c;不同于以往我们安装的软件&＃xff0c;我们这里可以自己建立配置文件。

首先我们建立一个 example文件

vi example

&＃xff0c;然后把下面内容&＃xff0c;粘帖到里面就可以了&＃xff0c;注意不要有乱码&＃xff0c;有乱码的话&＃xff0c;可以直接创建一个文件&＃xff0c;然后上传。方法也有很多&＃xff0c;能解决就好。

对于下面红字部分&＃xff0c;记得创建
文件夹
&＃xff0c;并且注意他们的权限一致&＃xff0c;这个比较简单的&＃xff0c;就不在书写了。对于下面的配置项&＃xff0c;可以参考
flume参考文档
&＃xff0c;这里面的参数很详细。

agent1表示代理名称
agent1.sources&＃61;source1
agent1.sinks&＃61;sink1
agent1.channels&＃61;channel1

#配置source1
agent1.sources.source1.type&＃61;spooldir
agent1.sources.source1.spoolDir&＃61;/usr/aboutyunlog
agent1.sources.source1.channels&＃61;channel1
agent1.sources.source1.fileHeader &＃61; false

#配置sink1
agent1.sinks.sink1.type&＃61;hdfs
agent1.sinks.sink1.hdfs.path&＃61;hdfs://master:8020/aboutyunlog
agent1.sinks.sink1.hdfs.fileType&＃61;DataStream
agent1.sinks.sink1.hdfs.writeFormat&＃61;TEXT
agent1.sinks.sink1.hdfs.rollInterval&＃61;4
agent1.sinks.sink1.channel&＃61;channel1

#配置channel1
agent1.channels.channel1.type&＃61;file
agent1.channels.channel1.checkpointDir&＃61;/usr/aboutyun_tmp123
agent1.channels.channel1.dataDirs&＃61;/usr/aboutyun_tmp

4.启动flume

flume-ng agent -n agent1 -c conf -f /usr/flume/conf/example -Dflume.root.logger&＃61;DEBUG,console

上面注意红字部分&＃xff0c;是我们自己建立的文件&＃xff0c;而对于绿色部分&＃xff0c;则是输出调试信息&＃xff0c;也可以在配置文件中配置。

5.我们启动flume之后

会看到下面信息&＃xff0c;并且信息不停的重复。这个其实是在
空文件的时候&＃xff0c;
监控的信息输出。

一旦有文件输入&＃xff0c;我们会看到下面信息。

注意&＃xff1a;这个不要关闭&＃xff0c;我们另外开启一个shell&＃xff0c;在监控文件夹中放入要上传的文件

比如我们在监控文件夹下&＃xff0c;创建一个test1文件&＃xff0c;内容如下

这时候flume监控shell&＃xff0c;会有相应的如下下面变化

2014-06-02 12:01:04,066 (pool-6-thread-1) [INFO - org.apache.flume.client.avro.ReliableSpoolingFileEventReader.rollCurrentFile(ReliableSpoolingFileEventReader.java:332)] Preparing to move file /usr/aboutyunlog/test1 to /usr/aboutyunlog/test1.COMPLETED
2014-06-02 12:01:04,070 (pool-6-thread-1) [ERROR - org.apache.flume.source.SpoolDirectorySource$SpoolDirectoryRunnable.run(SpoolDirectorySource.java:256)] FATAL: Spool Directory source source1: { spoolDir: /usr/aboutyunlog }: Uncaught exception in SpoolDirectorySource thread. Restart or reconfigure Flume to continue processing.
java.lang.IllegalStateException: File name has been re-used with different files. Spooling assumptions violated for /usr/aboutyunlog/test1.COMPLETED
at org.apache.flume.client.avro.ReliableSpoolingFileEventReader.rollCurrentFile(ReliableSpoolingFileEventReader.java:362)
at org.apache.flume.client.avro.ReliableSpoolingFileEventReader.retireCurrentFile(ReliableSpoolingFileEventReader.java:314)
at org.apache.flume.client.avro.ReliableSpoolingFileEventReader.readEvents(ReliableSpoolingFileEventReader.java:243)
at org.apache.flume.source.SpoolDirectorySource$SpoolDirectoryRunnable.run(SpoolDirectorySource.java:227)
at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:304)
at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:178)
at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:744)
2014-06-02 12:01:07,749 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.hdfs.HDFSDataStream.configure(HDFSDataStream.java:58)] Serializer &＃61; TEXT, UseRawLocalFileSystem &＃61; false
2014-06-02 12:01:07,803 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.hdfs.BucketWriter.open(BucketWriter.java:261)] Creating hdfs://master:8020/aboutyunlog/FlumeData.1401681667750.tmp
2014-06-02 12:01:07,871 (hdfs-sink1-call-runner-2) [DEBUG - org.apache.flume.sink.hdfs.AbstractHDFSWriter.reflectGetNumCurrentReplicas(AbstractHDFSWriter.java:195)] Using getNumCurrentReplicas--HDFS-826
2014-06-02 12:01:07,871 (hdfs-sink1-call-runner-2) [DEBUG - org.apache.flume.sink.hdfs.AbstractHDFSWriter.reflectGetDefaultReplication(AbstractHDFSWriter.java:223)] Using FileSystem.getDefaultReplication(Path) from HADOOP-8014
2014-06-02 12:01:10,945 (Log-BackgroundWorker-channel1) [INFO - org.apache.flume.channel.file.EventQueueBackingStoreFile.beginCheckpoint(EventQueueBackingStoreFile.java:214)] Start checkpoint for /usr/aboutyun_tmp123/checkpoint, elements to sync &＃61; 3
2014-06-02 12:01:10,949 (Log-BackgroundWorker-channel1) [INFO - org.apache.flume.channel.file.EventQueueBackingStoreFile.checkpoint(EventQueueBackingStoreFile.java:239)] Updating checkpoint metadata: logWriteOrderID: 1401681430998, queueSize: 0, queueHead: 11
2014-06-02 12:01:10,952 (Log-BackgroundWorker-channel1) [INFO - org.apache.flume.channel.file.Log.writeCheckpoint(Log.java:1005)] Updated checkpoint for file: /usr/aboutyun_tmp/log-8 position: 2482 logWriteOrderID: 1401681430998
2014-06-02 12:01:10,953 (Log-BackgroundWorker-channel1) [DEBUG - org.apache.flume.channel.file.Log.removeOldLogs(Log.java:1067)] Files currently in use: [8]
2014-06-02 12:01:11,872 (hdfs-sink1-roll-timer-0) [DEBUG - org.apache.flume.sink.hdfs.BucketWriter$2.call(BucketWriter.java:303)] Rolling file (hdfs://master:8020/aboutyunlog/FlumeData.1401681667750.tmp): Roll scheduled after 4 sec elapsed.
2014-06-02 12:01:11,873 (hdfs-sink1-roll-timer-0) [INFO - org.apache.flume.sink.hdfs.BucketWriter.close(BucketWriter.java:409)] Closing hdfs://master:8020/aboutyunlog/FlumeData.1401681667750.tmp
2014-06-02 12:01:11,873 (hdfs-sink1-call-runner-7) [INFO - org.apache.flume.sink.hdfs.BucketWriter$3.call(BucketWriter.java:339)] Close tries incremented
2014-06-02 12:01:11,895 (hdfs-sink1-call-runner-8) [INFO - org.apache.flume.sink.hdfs.BucketWriter$8.call(BucketWriter.java:669)] Renaming hdfs://master:8020/aboutyunlog/FlumeData.1401681667750.tmp to hdfs://master:8020/aboutyunlog/FlumeData.1401681667750
2014-06-02 12:01:11,897 (hdfs-sink1-roll-timer-0) [INFO - org.apache.flume.sink.hdfs.HDFSEventSink$1.run(HDFSEventSink.java:402)] Writer callback called.
2014-06-02 12:01:12,423 (conf-file-poller-0) [DEBUG - org.apache.flume.node.PollingPropertiesFileConfigurationProvider$FileWatcherRunnable.run(PollingPropertiesFileConfigurationProvider.java:126)] Checking file:conf/example for changes
2014-06-02 12:01:40,953 (Log-BackgroundWorker-channel1) [DEBUG - org.apache.flume.channel.file.FlumeEventQueue.checkpoint(FlumeEventQueue.java:137)] Checkpoint not required

上传成功之后&＃xff0c;我们去hdfs上&＃xff0c;查看上传文件&＃xff1a;

这样我们做到了flume上传到hadoop2.2。

完毕

推荐阅读

io
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
ip
如何配置Unturned服务器及其消息设置

本文详细介绍了Unturned服务器的配置方法和消息设置技巧，帮助用户了解并优化服务器管理。同时，提供了关于云服务资源操作记录、远程登录设置以及文件传输的相关补充信息。 ... [详细]

蜡笔小新 2024-12-27 13:47:38
io
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
io
高效解决应用崩溃问题！友盟新版错误分析工具全面升级

友盟推出的最新版错误分析工具，专为移动开发者设计，提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态，快速发现并修复错误，显著提升应用的稳定性和用户体验。 ... [详细]

蜡笔小新 2024-12-26 14:11:47
char
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
io
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
io
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
io
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
io
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
io
解决VS2015类向导中'异常来自HRESULT:0x8CE0000B'错误的详细方法

本文介绍了在使用Visual Studio 2015进行项目开发时，遇到类向导弹出“异常来自 HRESULT:0x8CE0000B”错误的解决方案。通过具体步骤和实践经验，帮助开发者快速排查并解决问题。 ... [详细]

蜡笔小新 2024-12-27 19:01:41
jsp
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
io
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
callback
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
io
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
io
帝国CMS多图上传插件详解及使用指南

本文介绍了一款用于帝国CMS的多图上传插件，该插件通过Flash技术实现批量图片上传功能，显著提升了多图上传效率。文章详细说明了插件的安装、配置和使用方法。 ... [详细]

蜡笔小新 2024-12-26 13:30:01

姚扰腾

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章