Flume+Solr+log4j搭建web日志采集系统【转】

作者：同步管理精英 | 来源：互联网 | 2023-05-19 12:04

关于ApacheHadoopEcosystem请点击这里。Cloudera官方的教程也是基于这个例子开始的，get-started-with-hadoop-tutorial并且假设

关于Apache Hadoop Ecosystem 请点击这里。
Cloudera 官方的教程也是基于这个例子开始的，get-started-with-hadoop-tutorial
并且假设我们已经了解Flume(agent, Source, Channel, Sink) , Morphline (ETL), Solr (全文检索)，如果都没有了解，请自行百度。
Scenario (需求)
首先我们有多个web 应用，每个web应用每天都有不断的日志产生，这些日志文件现在以文件的形式存储在服务器当中，我们需要收集这些日志，并对日志进行查询。
所以整个流程就是，Flume agent 收集日志 -> Morphline 进行过滤 -> 对结果进行索引然后在Solr中进行搜索。
Flume 收集日志
1、使用 Spooling Directory Source
就是监视指定目录是否有新文件移入，如果有，就会读取这些Event, 但是文件一旦被移到该目录之后，就不应该被写入，目录下的文件名也不可重复，这样的情况就是需要定期将文件移动到指定的目录，不能实现实时的读取。

2、使用 Exec Source

就是通过下面的命令行产生的结果作为源，在agent 死亡或或者机器重启的过程可能会存在数据丢失

agent.sources.execSrc.type = execagent.sources.execSrc.shell=/bin/bash -c
agent.sources.execSrc.command= tail -F /var/log/flume/flume.log | grep "error: "

1、使用消息中间件JMS或者KAFKA
请参考: 基于Flume+Log4j+Kafka的日志采集架构方案
客户端直接发送至kafaka queue ，用 log4j KafkaAppender
2、使用Flume Appender
对于Java web 应用，我们就最简单直接采取这种方式。 Flume Appender 我们这里就直接采用log4j2 , 关于日志框架的这些说明，请看另一片博客 spring boot use log4j log4j 关于flume Appender 的配置

The Flume Appender supports three modes of operation.

1、It can act as a remote Flume client which sends Flume events via Avro to a Flume Agent configured with an Avro Source.（同步，Avro协议）

2、It can act as an embedded Flume Agent where Flume events pass directly into Flume for processing.（异步，需要维护客户端 flume）

3、It can persist events to a local BerkeleyDB data store and then asynchronously send the events to Flume, similar to the embedded Flume Agent but without most of the Flume dependencies.（先写数据库，再异步发送）

Usage as an embedded agent will cause the messages to be directly passed to the Flume Channel and then control will be immediately returned to the application. All interaction with remote agents will occur asynchronously. Setting the "type" attribute to "Embedded" will force the use of the embedded agent. In addition, configuring agent properties in the appender configuration will also cause the embedded agent to be used.

我们下面就简单的用第一种方式
客户端配置
log4j.xml

服务端配置
参考：flume log4j appender config
下载 flume, 在conf 目录下，配置example.conf ：

# example.conf: A single-node Flume configuration# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = org.apache.flume.clients.log4jappender.Log4jAppendera1.sources.r1.bind = localhosta1.sources.r1.port = 44444# Describe the sinka1.sinks.k1.type = logger# Use a channel which buffers events in memorya1.channels.c1.type = memorya1.channels.c1.capacity = 1000a1.channels.c1.transactionCapacity = 100# Bind the source and sink to the channela1.sources.r1.channels = c1a1.sinks.k1.channel = c1

启动 flume

bin/flume-ng agent --conf conf --conf-file example.conf --name a1 -Dflume.root.logger=INFO,console

查看日志，是否成功。
Solr 配置
关于solr的介绍
这里 solr的数据也是需要存储到 hdfs中的，另外solr 是通过zookeeper 来管理的
以下配置，这里用的cloudera manager 安装，所以自动配好了，但是需要检验，如果是手动安装也有对应的文档可以直接查看, 另外这里省略Solr Authentication。
配置 zookeeper service

$ cat /etc/solr/conf/solr-env.shexport SOLR_ZK_ENSEMBLE=zk01.example.com:2181,zk02.example.com:2181,zk03.example.com:2181/solr

配置 solr use hdfs

$ cat /etc/default/solr//地址nn01.example.com:8020 是hdfs name node的地址SOLR_HDFS_HOME=hdfs://nn01.example.com:8020/solr//To create the /solr directory in HDFS,需要创建/solr hdfs目录:$ sudo -u hdfs hdfs dfs -mkdir /solr$ sudo -u hdfs hdfs dfs -chown solr /solr

initializing the ZooKeeper Namespace

$ sudo service solr-server restart

启动solr

$ sudo service solr-server restart

solr collection 配置
solr 通过 collection 来组织逻辑数据，所以你需要创建collection，每个collection有自己的配置，文档上已经讲的比较清楚了，而且也不多，这里不再赘述
Generating Collection Configuration
collection是用来存储上面收集到的日志：

// 使用默认模版创建instancedir$ solrctl instancedir --generate $HOME/weblogs_config// upload instancedir to zookeeper，上传配置$ solrctl instancedir --create weblogs_config $HOME/weblogs_config//verify instance  $ solrctl instancedir --list// create collection  -s shard_count, collection 和config 关联$ solrctl collection --create weblogs_collection -s 2 -c weblogs_config

A SolrCloud collection is the top-level object for indexing documents and providing a query interface. Each collection must be associated with an instance directory. Different collections can use the same instance directory. Each collection is typically replicated among several SolrCloud instances. Each replica is called a core and is assigned to an individual Solr service. The assignment process is managed automatically, although you can apply fine-grained control over each individual core using the solrctl core command . 这是 collection 和instance之间关系的介绍
成功创建之后如何修改和扩展，请参考这里solectl usage
Morphline (ETL)
创建好 collection 之后，我们就需要将日志解析存储到solr里，方便检索。Morphline 就是这个中间过程的ETL工具(extracting, transforming and loading data), Flume 提供了Morphlion Solr Sink, 从 log flume的source中读取event，经过ETL导入到solr中。

images/E2bWG7NcddTcGF43mY4T3WF5Ndf74Gxd.jpg

配置flume

继续上面的flume，中 example.conf 的配置

a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = avroa1.sources.r1.bind = 0.0.0.0a1.sources.r1.port = 4444# Describe the sinka1.sinks.k1.type = org.apache.flume.sink.solr.morphline.MorphlineSolrSinka1.sinks.k1.morphlineFile=morphlines.confa1.sinks.k1.morphlineId = morphline_log4j2# Use a channel which buffers events in memorya1.channels.c1.type = memorya1.channels.c1.capacity = 1000a1.channels.c1.transactionCapacity = 1000# Bind the source and sink to the channela1.sources.r1.channels = c1a1.sinks.k1.channel = c1

配置Morphline
我们的日志格式文件如下：

[INFO ] 2017-07-14 11:40:51.556 [main] RequestMappingHandlerAdapter - Detected ResponseBodyAdvice bean in apiResponseAdvice

需要解析成：

level: INFOcreate_time: 2017-07-14 11:40:51.556thread: mainclass:  RequestMappingHandlerAdapter -    //这里有个短横线message: Detected ResponseBodyAdvice bean in apiResponseAdvice

所以我们使用grok

在线调试工具online tools

 # grok get data from unstructured line      {         grok {          dictionaryFiles : [grok-dictionary.conf]          expressions : {            message : """\[%{LOGLEVEL:level} \] %{SC_LOGDATETIME:create_time} \[%{DATA:thread}\] %{WORD:class} [-] %{GREEDYDATA:message}"""          }        }      }      # Consume the output record of the previous command and pipe another      # record downstream.      #      # convert timestamp field to native Solr timestamp format       # e.g.  2017-07-14 11:40:52.512 to 2012-09-06T07:14:34.000Z      {        convertTimestamp {          field : create_time          inputFormats : ["yyyy-MM-dd HH:mm:ss.SSS", "yyyy-MM-dd"]          inputTimezone : America/Los_Angeles          outputFormat : "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'"          outputTimezone : UTC        }      }

配置 schema.xml
在上一节，配置solr的时候，我们生成了默认的模版，我们需要根据实际的需求修改schema.xml，在$HOME/weblogs/conf 下
The schema.xml file contains all of the details about which fields your documents can contain, and how those fields should be dealt with when adding documents to the index, or when querying those fields.
schema.xml
solrconfig.xml

重新上传配置到zookeeper

$ solrctl instancedir --update weblogs_config $HOME/weblogs_config$ solrctl collection --reload weblogs_collection

总结

到此为止，我们完成了日志的收集，解析，索引，你可以通过 Hue来进行搜索和查询了，或者自己定义UI。这个教程比较基础也相对简单，但是可以完成基本的需求，也把日志处理流程走了一遍，剩下的大家自定义即可。

文章来源：https://my.oschina.net/tigerlene/blog/1475239

推荐阅读

int
如何使用readlink获取文件的完整路径？

本文介绍了使用readlink命令获取文件的完整路径的简单方法，并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]

蜡笔小新 2023-12-09 17:28:17
text
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
int
SQL日志收缩及截断方法详解

本文详细介绍了SQL日志收缩的方法，包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时，还介绍了截断日志的原理和注意事项，包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法，可以有效减小逻辑日志的大小，提高数据库的性能。 ... [详细]

蜡笔小新 2023-12-14 18:23:25
random
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
get
搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的详细步骤

本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的步骤，包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]

蜡笔小新 2023-12-14 17:03:58
get
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
int
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
int
高校天文共享平台开发过程中的思考与规划

本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面，并总结了项目存在的问题，如前后端未分离、代码混乱等。作者表示希望通过记录和规划，能够理清思路，进一步完善该平台。 ... [详细]

蜡笔小新 2023-12-13 18:08:58
int
Python连接服务器失败：使用aiohttp模拟服务器出现错误问题及解决方法

本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题，并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息，同时也提到了相关的警告信息和函数的替代方案。通过阅读本文，读者可以了解到如何解决Python连接服务器失败的问题，并对aiohttp模块有更深入的了解。 ... [详细]

蜡笔小新 2023-12-13 12:37:59
int
Android 7自学笔记总结、移动架构视频、安卓面试真题、项目实战源码讲义

本文介绍了Android 7的学习笔记总结，包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容，并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同，否则会出现问题。 ... [详细]

蜡笔小新 2023-12-13 10:06:58
int
分享2款网站程序源码/主题等后门检测工具

本文介绍了2款用于检测网站程序源码和主题中是否存在后门的工具，分别是WebShellkiller和D盾_Web查杀。WebShellkiller是一款支持webshell和暗链扫描的工具，采用多重检测引擎和智能检测模型，能够更精准地检测出已知和未知的后门文件。D盾_Web查杀则使用自行研发的代码分析引擎，能够分析更为隐藏的WebShell后门行为。 ... [详细]

蜡笔小新 2023-12-13 09:10:23
int
Linux如何安装Mongodb的详细步骤和注意事项

本文介绍了Linux如何安装Mongodb的详细步骤和注意事项，同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库，适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作，能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]

蜡笔小新 2023-12-12 21:54:15
int
解决Sharepoint 2013运行状况分析出现的“一个或多个服务器未响应”问题的方法

本文介绍了解决Sharepoint 2013运行状况分析中出现的“一个或多个服务器未响应”问题的方法。对于有高要求的客户来说，系统检测问题的存在是不可接受的。文章详细描述了解决该问题的步骤，包括删除服务器、处理分布式缓存留下的记录以及使用代码等方法。同时还提供了相关关键词和错误提示信息，以帮助读者更好地理解和解决该问题。 ... [详细]

蜡笔小新 2023-12-10 13:37:58
int
Tomcat安装与配置教程及常见问题解决方法

本文介绍了Tomcat的安装与配置教程，包括jdk版本的选择、域名解析、war文件的部署和访问、常见问题的解决方法等。其中涉及到的问题包括403问题、数据库连接问题、1130错误、2003错误、Java Runtime版本不兼容问题以及502错误等。最后还提到了项目的前后端连接代码的配置。通过本文的指导，读者可以顺利完成Tomcat的安装与配置，并解决常见的问题。 ... [详细]

蜡笔小新 2023-12-09 07:28:32
int
Linux虚拟化部署中的VLAN配置方法详解

本文详细介绍了在Linux虚拟化部署中进行VLAN配置的方法。首先要确认Linux系统内核是否已经支持VLAN功能，然后配置物理网卡、子网卡和虚拟VLAN网卡的关系。接着介绍了在Linux配置VLAN Trunk的步骤，包括将物理网卡添加到VLAN、检查添加的VLAN虚拟网卡信息以及重启网络服务等。最后，通过验证连通性来确认配置是否成功。 ... [详细]

蜡笔小新 2023-12-09 03:55:11

同步管理精英

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章