当前位置: 开发笔记 > 编程语言 > 正文

方方面面|也就是_flume拦截器及问题解决

作者：前前后后zzyyix | 来源：互联网 | 2023-09-23 20:43

篇首语：本文由编程笔记#小编为大家整理，主要介绍了flume拦截器及问题解决相关的知识，希望对你有一定的参考价值。概述

篇首语：本文由编程笔记#小编为大家整理，主要介绍了flume拦截器及问题解决相关的知识，希望对你有一定的参考价值。

概述

Flume 除了主要的三大组件 Source、Channel和 Sink&＃xff0c;还有一些其他灵活的组件&＃xff0c;如拦截器、SourceRunner运行器、Channel选择器和Sink处理器等。

组件框架图

今天主要来看看拦截器&＃xff0c;先看下组件框架流程图&＃xff0c;熟悉了大致框架流程学习起来必然会更加轻松&＃xff1a;

接收事件
根据配置选择对应的Source运行器&＃xff08;EventDrivenSourceRunner 和 PollableSourceRunner&＃xff09;
处理器处理事件&＃xff08;Load-Balancing Sink 和 Failover Sink 处理器&＃xff09;
将事件传递给拦截器链
将每个事件传递给Channel选择器
返回写入事件的Channel列表
将所有事件写入每个必需的Channel&＃xff0c;只有一个事务被打开
可选Channel&＃xff08;配置可选Channel后不管其是否写入成功&＃xff09;

拦截器

拦截器&＃xff08;Interceptor&＃xff09;是简单插件式组件&＃xff0c;设置在Source和Channel之间&＃xff0c;Source接收到event在写入到对应的Channel之前&＃xff0c;可以通过调用的拦截器转换或者删除过滤掉一部分event。通过拦截器后返回的event数不能大于原本的数量。在一个Flume 事件流程中&＃xff0c;可以添加任意数量的拦截器转换或者删除从单个Source中来的事件&＃xff0c;Source将同一个事务的所有事件event传递给Channel处理器&＃xff0c;进而依次可以传递给多个拦截器&＃xff0c;直至从最后一个拦截器中返回的最终事件event写入到对应的Channel中。
flume-1.7版本支持的拦截器&＃xff1a;

编写自定义拦截器

自定义的拦截器编写&＃xff0c;我们只需要实现一个Interceptor接口即可&＃xff0c;该接口的定义如下&＃xff1a;

public interface Interceptor
/* 任何需要拦截器初始化或者启动的操作就可以定义在此&＃xff0c;无则为空即可 */
public void initialize();
/* 每次只处理一个Event */
public Event intercept(Event event);
/* 量处理Event */
public List<Event> intercept(List<Event> events);
/*需要拦截器执行的任何closing/shutdown操作&＃xff0c;一般为空 */
public void close();
/* 获取配置文件中的信息&＃xff0c;必须要有一个无参的构造方法 */
public interface Builder extends Configurable
public Interceptor build();

接口中的几个方法或者内部接口含义代码中已经标注&＃xff0c;需要留意的地方就是考虑到多线程运行Source时&＃xff0c;需要保证编写的代码是线程安全的。这里就不展示自定义拦截器代码了&＃xff0c;仿照已有的拦截器&＃xff0c;可以很容易的编写一个简单功能的自定义拦截器的。

实际使用及问题

问题&＃xff1a;

目前环境中使用的都是tailSource、hdfsSink&＃xff0c;在sink时根据时间对日志分割成不同的目录&＃xff0c;但是实际过程中存在一些延迟&＃xff0c;导致sink写入hdfs时的时间和日志文件中记录的时间存在一些差异&＃xff1b;并且不能保留原有的日志文件名。

需求&＃xff1a;

根据日志中记录的时间对文件进行分目录存储
将source端读取的日志名字符串添加至hdfsSink写入hdfs的文件名中&＃xff08;在hdfs文件中可以根据文件名区分日志&＃xff09;

日志格式如下&＃xff1a;

2017/01/13 13:30:00 ip:123.178.46.252 message:["s":"bbceif1484117100097","u":"354910072847819","id":"2x1kfBk63z","e":
2017/01/13 14:50:00 ip:123.178.46.252 message:["s":"bbceif1484117100097","u":"354910072847819","id":"2x1kfBk63z","e":
2017/01/13 15:52:00 ip:123.178.46.252 message:["s":"bbceif1484117100097","u":"354910072847819","id":"2x1kfBk63z","e":
2017/01/13 16:53:00 ip:123.178.46.252 message:["s":"bbceif1484117100097","u":"354910072847819","id":"2x1kfBk63z","e":
2017/01/14 13:50:00 ip:123.178.46.252 message:["s":"bbceif1484117100097","u":"354910072847819","id":"2x1kfBk63z","e":
2017/01/14 13:50:00 ip:123.178.46.252 message:["s":"bbceif1484117100097","u":"354910072847819","id":"2x1kfBk63z","e":
2017/01/14 14:50:00 ip:123.178.46.252 message:["s":"bbceif1484117100097","u":"354910072847819","id":"2x1kfBk63z","e":
2017/01/14 14:56:00 ip:123.178.46.252 message:["s":"bbceif1484117100097","u":"354910072847819","id":"2x1kfBk63z","e":

如何实现以上需求&＃xff1f;

要了解TaildirSource如何读取日志文件&＃xff0c;按行读取还是按数据量大小&＃xff1f;
分析代码可知&＃xff0c;无论单个事件操作还是批量操作均是按行读取
hdfsSink如何对文件进行分目录&＃xff1f;
若定义了hdfs.useLocalTimeStamp &＃61; true &＃xff0c;则是根据本地时间戳分目录&＃xff0c;否则是从事件的header中获取时间戳。

明白了这两个问题&＃xff0c;就可以继续往前走了。

实现需求1

Source端&＃xff1a;
经过调研查阅资料发现&＃xff0c;有拦截器就可以直接实现该目标功能。使用RegexExtractorInterceptor正则抽取拦截器&＃xff0c;匹配日志中的时间字符串&＃xff0c;将其添加至Event的header中&＃xff08;header的key值为timestamp&＃xff09;&＃xff0c;写入header时序列化只能使用org.apache.flume.interceptor.RegexExtractorInterceptorMillisSerializer&＃xff08;该序列化器内部根据配置传入的pattern将时间转换为时间戳格式&＃xff09;&＃xff1a;

agent1.sources.r1.interceptors &＃61; inter
agent1.sources.r1.interceptors.inter.type &＃61; regex_extractor
agent1.sources.r1.interceptors.inter.regex &＃61; ^(\\\\d\\\\d\\\\d\\\\d/\\\\d\\\\d/\\\\d\\\\d\\\\s\\\\d\\\\d:\\\\d\\\\d:\\\\d\\\\d).*
agent1.sources.r1.interceptors.inter.serializers &＃61; s1
#agent1.sources.r1.interceptors.inter.serializers.s1.type &＃61; org.apache.flume.interceptor.RegexExtractorInterceptorPassThroughSerializer //该序列化内部只是将传入的匹配项直接返回return
agent1.sources.r1.interceptors.inter.serializers.s1.type &＃61; org.apache.flume.interceptor.RegexExtractorInterceptorMillisSerializer
agent1.sources.r1.interceptors.inter.serializers.s1.name &＃61; timestamp
agent1.sources.r1.interceptors.inter.serializers.s1.pattern &＃61; yyyy/MM/dd HH:mm:ss

Sink端&＃xff1a;
Sink端只需要注意不要设置hdfs.useLocalTimeStamp 为 true&＃xff0c;也就是不使用本地时间&＃xff0c;默认为false即可。

agent1.sinks.k1.type &＃61; hdfs
agent1.sinks.k1.channel &＃61; c2
agent1.sinks.k1.hdfs.path &＃61; /user/portal/tmp/syx/test2/%Y%m%d/%Y%m%d%H
agent1.sinks.k1.hdfs.filePrefix &＃61; events-%[localhost]-%timestamp //%[localhost] 获取主机名&＃xff0c;%timestamp 获取事件header中key为timestamp的值value
#agent1.sinks.k1.hdfs.useLocalTimeStamp &＃61; true //注意此处直接使用Event header中的timestamp&＃xff0c;不适用本地时间戳
agent1.sinks.k1.hdfs.callTimeout &＃61; 100000

实现需求2

tailDirSource端使用参数&＃xff1a;

fileHeader	false	Whether to add a header storing the absolute path filename.
fileHeaderKey	file	Header key to use when appending absolute path filename to event header.

fileHeader 设置为 true &＃xff0c;可以将日志文件的绝对路径存储在事件的header中&＃xff1b;
fileHeaderKey 目前来说不需要设置&＃xff0c;它指定了存储在header中路径的key 名&＃xff08;header中是以key-value对存储&＃xff09;&＃xff0c;默认为 file。如下&＃xff1a;

Event: headers:timestamp&＃61;1452581700000, file&＃61;/home/hadoop_portal/tiany/test.log body: 32 30 31 36 2F 30 31 2F 31 32 20 31 34 3A 35 35 2016/01/12 14:




    
        
                        编程
                        mysql
                        ci
                        int
                        list
                        文件
                        build
                        config
                        多线程
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        list
                        服务器部署中的安全策略实践与优化
                    

                    
                                                
                            
                        
                                                
                        服务器部署中的安全策略实践与优化 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-10 13:04:30
                    

                

                
                                
                    
                        export
                        日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL
                    

                    
                                                
                        本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 18:47:34
                    

                

                                
                    
                    
                
                
                                
                    
                        list
                        禁止Mysql默认端口访问Internet
                    

                    
                                                
                        过去查询Mysql的时候，都见3306对所有端口开放着，感觉不安全。netstat&nbsp;-anlp&nbsp;|&nbsp;grep&nbsp;mysqltcp&nbsp;0&am ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 17:36:31
                    

                

                
                                
                    
                        instance
                        基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装
                    

                    
                                                
                            
                        
                                                
                        一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 15:49:49
                    

                

                
                                
                    
                        instance
                        深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码
                    

                    
                                                
                        本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 07:33:27
                    

                

                
                                
                    
                        timestamp
                        MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型
                    

                    
                                                
                            
                        
                                                
                        本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-12 15:57:04
                    

                

                
                                
                    
                        hash
                        基于Linux开源VOIP系统LinPhone[四]
                    

                    
                                                
                            
                        
                                                
                        ****************************************************************************************** ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-12 11:00:11
                    

                

                
                                
                    
                        main
                        ARM汇编基础基于Keil创建STM32汇编程序的编写
                    

                    
                                                
                            
                        
                                                
                        文章目录一、新建项目（1）工具介绍（2）创建项目：二、配置环境（1）配置芯片&#x ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-12 08:39:33
                    

                

                
                                
                    
                        merge
                        秒建一个后台管理系统？用这5个开源免费的Java项目就够了
                    

                    
                                                
                            
                        
                                                
                        秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-12 03:21:33
                    

                

                
                                
                    
                        merge
                        InfluxDB、collectd与Grafana的详细安装与配置指南
                    

                    
                                                
                        本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-11 19:54:24
                    

                

                
                                
                    
                        split
                        开发日志：高效图片压缩与上传技术解析
                    

                    
                                                
                        开发日志：高效图片压缩与上传技术解析 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-11 19:33:51
                    

                

                
                                
                    
                        export
                        优化Vite 1.0至2.0升级过程中遇到的某些代码块过大问题解决方案
                    

                    
                                                
                            
                        
                                                
                        本文详细探讨了在将项目从 Vite 1.0 升级到 2.0 的过程中，如何解决某些代码块过大的问题。通过具体的编码示例，文章提供了全面的解决方案，帮助开发者有效优化打包性能。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-11 13:35:04
                    

                

                
                                
                    
                        list
                        基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用
                    

                    
                                                
                            
                        
                                                
                        本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-11 10:58:21
                    

                

                
                                
                    
                        go
                        机器学习的持续探索与进展
                    

                    
                                                
                        在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-11 10:27:39
                    

                

                
                                
                    
                        main
                        Android 构建基础流程详解
                    

                    
                                                
                            
                        
                                                
                        Android 构建基础流程详解 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-10 15:45:20

















    

    
        
            
            
                
                
            

            
                前前后后zzyyix            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    version
                
                                
                    lua
                
                                
                    dagger
                
                                
                    cPlusPlus
                
                                
                    list
                
                                
                    go
                
                                
                    timestamp
                
                                
                    hash
                
                                
                    vbscript
                
                                
                    jar
                
                                
                    heatmap
                
                                
                    eval
                
                                
                    spring
                
                                
                    less
                
                                
                    instance
                
                                
                    join
                
                                
                    testing
                
                                
                    js
                
                                
                    split
                
                                
                    export
                
                                
                    regex
                
                                
                    yaml
                
                                
                    case
                
                                
                    foreach
                
                                
                    merge
                
                                
                    main
                
                                
                    netty
                
                                
                    email
                
                                
                    heap
                
                                
                    audio
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1使用ng-change来选择ng对象。 - getting the ng-object selected with ng-change
                
                                
                    2运动控制卡应用开发教程之C#
                
                                
                    3C语言超详细讲解字符串相乘_C 语言
                
                                
                    4ASP.NET 3.5 新特性开发向导实践（附项目源码下载）
                
                                
                    5css中margin外边距合并问题讲解及实例演示
                
                                
                    6.NET CPU爆高事故事故分析某供应链WEB网站
                
                                
                    7为什么我手机的科学计算机算的不对,“手机计算机和科学计算机算出来答案不一样，我到底该信哪个哈？”...
                
                                
                    8在Java项目中打印错误日志的正确姿势
                
                                
                    9开发笔记:ndarray对象的使用方法
                
                                
                    10Python学习18_高级形态学处理
                
                                
                    11android i2c读写,Android 平台下使用 i2ctools
                
                                
                    12CCAI2018 | 大规模文本数据挖掘的新方向
                
                                
                    13自己实现Linux系统任务管理器(附源码)
                
                                
                    14是什么 通信中unit_scala语言基础：面向对象编程中的类与对象
                
                                
                    15通过ASP与ACCESS数据库建立连接（附源码）(3)