logstashfilebeat配置文件详解_一文快速上手Logstash

作者：六月__的__旅行 | 来源：互联网 | 2023-09-14 17:17

Elasticsearch是当前主流的分布式大数据存储和搜索引擎，可以为用户提供强大的全文本检索能力，广泛应用于日志检索，全站搜索等领域。

Elasticsearch是当前主流的分布式大数据存储和搜索引擎&＃xff0c;可以为用户提供强大的全文本检索能力&＃xff0c;广泛应用于日志检索&＃xff0c;全站搜索等领域。Logstash作为Elasicsearch常用的实时数据采集引擎&＃xff0c;可以采集来自不同数据源的数据&＃xff0c;并对数据进行处理后输出到多种输出源&＃xff0c;是Elastic Stack 的重要组成部分。本文从Logstash的工作原理&＃xff0c;使用示例&＃xff0c;部署方式及性能调优等方面入手&＃xff0c;为大家提供一个快速入门Logstash的方式。文章最后也给出了一些深入了解Logstash的的链接&＃xff0c;以方便大家根据需要详细了解。

1 Logstash工作原理

1.1 处理过程

如上图&＃xff0c;Logstash的数据处理过程主要包括&＃xff1a;Inputs, Filters, Outputs 三部分&＃xff0c; 另外在Inputs和Outputs中可以使用Codecs对数据格式进行处理。这四个部分均以插件形式存在&＃xff0c;用户通过定义pipeline配置文件&＃xff0c;设置需要使用的input&＃xff0c;filter&＃xff0c;output, codec插件&＃xff0c;以实现特定的数据采集&＃xff0c;数据处理&＃xff0c;数据输出等功能

&＃xff08;1&＃xff09;Inputs&＃xff1a;用于从数据源获取数据&＃xff0c;常见的插件如file, syslog, redis, beats 等[详细参考]
&＃xff08;2&＃xff09;Filters&＃xff1a;用于处理数据如格式转换&＃xff0c;数据派生等&＃xff0c;常见的插件如grok, mutate, drop, clone, geoip等[详细参考]
&＃xff08;3&＃xff09;Outputs&＃xff1a;用于数据输出&＃xff0c;常见的插件如elastcisearch&＃xff0c;file, graphite, statsd等[详细参考]
&＃xff08;4&＃xff09;Codecs&＃xff1a;Codecs不是一个单独的流程&＃xff0c;而是在输入和输出等插件中用于数据转换的模块&＃xff0c;用于对数据进行编码处理&＃xff0c;常见的插件如json&＃xff0c;multiline[详细参考]

可以点击每个模块后面的详细参考链接了解该模块的插件列表及对应功能

1.2 执行模型&＃xff1a;

&＃xff08;1&＃xff09;每个Input启动一个线程&＃xff0c;从对应数据源获取数据
&＃xff08;2&＃xff09;Input会将数据写入一个队列&＃xff1a;默认为内存中的有界队列&＃xff08;意外停止会导致数据丢失&＃xff09;。为了防止数丢失Logstash提供了两个特性&＃xff1a;
Persistent Queues&＃xff1a;通过磁盘上的queue来防止数据丢失
Dead Letter Queues&＃xff1a;保存无法处理的event&＃xff08;仅支持Elasticsearch作为输出源&＃xff09;
&＃xff08;3&＃xff09;Logstash会有多个pipeline worker, 每一个pipeline worker会从队列中取一批数据&＃xff0c;然后执行filter和output&＃xff08;worker数目及每次处理的数据量均由配置确定&＃xff09;

2 Logstash使用示例

2.1 Logstash Hello world

第一个示例Logstash将采用标准输入和标准输出作为input和output&＃xff0c;并且不指定filter

&＃xff08;1&＃xff09;下载Logstash并解压&＃xff08;需要预先安装JDK8&＃xff09;
&＃xff08;2&＃xff09;cd到Logstash的根目录&＃xff0c;并执行启动命令如下&＃xff1a;

cd logstash-6.4.0 bin/logstash -e

&＃xff08;3&＃xff09;此时Logstash已经启动成功&＃xff0c;-e表示在启动时直接指定pipeline配置&＃xff0c;当然也可以将该配置写入一个配置文件中&＃xff0c;然后通过指定配置文件来启动
&＃xff08;4&＃xff09;在控制台输入&＃xff1a;hello world&＃xff0c;可以看到如下输出&＃xff1a;

{

Logstash会自动为数据添加&＃64;version, host, &＃64;timestamp等字段

在这个示例中Logstash从标准输入中获得数据&＃xff0c;仅在数据中添加一些简单字段后将其输出到标准输出。

2.2 日志采集

这个示例将采用Filebeat input插件(Elastic Stack中的轻量级数据采集程序)采集本地日志&＃xff0c;然后将结果输出到标准输出

&＃xff08;1&＃xff09;下载示例使用的日志文件[地址]&＃xff0c;解压并将日志放在一个确定位置
&＃xff08;2&＃xff09;安装filebeat&＃xff0c;配置并启动[参考]

filebeat.yml配置如下&＃xff08;paths改为日志实际位置&＃xff0c;不同版本beats配置可能略有变化&＃xff0c;请根据情况调整&＃xff09;

filebeat.prospectors

启动命令&＃xff1a;

"publish"

&＃xff08;3&＃xff09;配置logstash并启动

1&＃xff09;创建first-pipeline.conf文件内容如下&＃xff08;该文件为pipeline配置文件&＃xff0c;用于指定input&＃xff0c;filter, output等&＃xff09;&＃xff1a;

input {

codec &＃61;> rubydebug用于美化输出[参考]

2&＃xff09;验证配置&＃xff08;注意指定配置文件的路径&＃xff09;&＃xff1a;

./bin/logstash -f first-pipeline.conf --config.test_and_exit

3&＃xff09;启动命令&＃xff1a;

./bin/logstash -f first-pipeline.conf --config.reload.automatic

--config.reload.automatic选项启用动态重载配置功能

4&＃xff09;预期结果&＃xff1a;

可以在Logstash的终端显示中看到&＃xff0c;日志文件被读取并处理为如下格式的多条数据

{

相对于示例2.1&＃xff0c;该示例使用了filebeat input插件从日志中获取一行记录&＃xff0c;这也是Elastic stack获取日志数据最常见的一种方式。另外该示例还采用了rubydebug codec 对输出的数据进行显示美化。

2.3 日志格式处理

可以看到虽然示例2.2使用filebeat从日志中读取数据&＃xff0c;并将数据输出到标准输出&＃xff0c;但是日志内容作为一个整体被存放在message字段中&＃xff0c;这样对后续存储及查询都极为不便。可以为该pipeline指定一个grok filter来对日志格式进行处理

&＃xff08;1&＃xff09;在first-pipeline.conf中增加filter配置如下

input {beats {port &＃61;> "5044"}}filter {grok {match &＃61;> { "message" &＃61;> "%{COMBINEDAPACHELOG}"}}}output {stdout { codec &＃61;> rubydebug }}

&＃xff08;2&＃xff09;到filebeat的根目录下删除之前上报的数据历史(以便重新上报数据),并重启filebeat

"publish"

&＃xff08;3&＃xff09;由于之前启动Logstash设置了自动更新配置&＃xff0c;因此Logstash不需要重新启动&＃xff0c;这个时候可以获取到的日志数据如下&＃xff1a;

{

可以看到message中的数据被详细解析出来了

2.4 数据派生和增强

Logstash中的一些filter可以根据现有数据生成一些新的数据&＃xff0c;如geoip可以根据ip生成经纬度信息

&＃xff08;1&＃xff09;在first-pipeline.conf中增加geoip配置如下

input {beats {port &＃61;> "5044"}}filter {grok {match &＃61;> { "message" &＃61;> "%{COMBINEDAPACHELOG}"}}geoip {source &＃61;> "clientip"}}output {stdout { codec &＃61;> rubydebug }}

&＃xff08;2&＃xff09;如2.3一样清空filebeat历史数据&＃xff0c;并重启
&＃xff08;3&＃xff09;当然Logstash仍然不需要重启&＃xff0c;可以看到输出变为如下&＃xff1a;

{"request" &＃61;> "/style2.css","agent" &＃61;> ""Mozilla/5.0 (X11; Linux x86_64; rv:24.0) Gecko/20140205 Firefox/24.0 Iceweasel/24.3.0"","geoip" &＃61;> {"timezone" &＃61;> "Europe/London","ip" &＃61;> "86.1.76.62","latitude" &＃61;> 51.5333,"continent_code" &＃61;> "EU","city_name" &＃61;> "Willesden","country_name" &＃61;> "United Kingdom","country_code2" &＃61;> "GB","country_code3" &＃61;> "GB","region_name" &＃61;> "Brent","location" &＃61;> {"lon" &＃61;> -0.2333,"lat" &＃61;> 51.5333},"postal_code" &＃61;> "NW10","region_code" &＃61;> "BEN","longitude" &＃61;> -0.2333},"offset" &＃61;> 24464,"auth" &＃61;> "-","ident" &＃61;> "-","input_type" &＃61;> "log","verb" &＃61;> "GET","source" &＃61;> "/data/home/michelmu/workspace/logstash-tutorial.log","message" &＃61;> "86.1.76.62 - - [04/Jan/2015:05:30:37 &＃43;0000] "GET /style2.css HTTP/1.1" 200 4877 "http://www.semicomplete.com/projects/xdotool/" "Mozilla/5.0 (X11; Linux x86_64; rv:24.0) Gecko/20140205 Firefox/24.0 Iceweasel/24.3.0"","type" &＃61;> "log","tags" &＃61;> [[0] "beats_input_codec_plain_applied"],"referrer" &＃61;> ""http://www.semicomplete.com/projects/xdotool/"","&＃64;timestamp" &＃61;> 2018-10-09T12:37:46.686Z,"response" &＃61;> "200","bytes" &＃61;> "4877","clientip" &＃61;> "86.1.76.62","&＃64;version" &＃61;> "1","beat" &＃61;> {"name" &＃61;> "VM_136_9_centos","hostname" &＃61;> "VM_136_9_centos","version" &＃61;> "5.6.10"},"host" &＃61;> "VM_136_9_centos","httpversion" &＃61;> "1.1","timestamp" &＃61;> "04/Jan/2015:05:30:37 &＃43;0000"}

可以看到根据ip派生出了许多地理位置信息数据

2.5 将数据导入Elasticsearch

Logstash作为Elastic stack的重要组成部分&＃xff0c;其最常用的功能是将数据导入到Elasticssearch中。将Logstash中的数据导入到Elasticsearch中操作也非常的方便&＃xff0c;只需要在pipeline配置文件中增加Elasticsearch的output即可。

&＃xff08;1&＃xff09;首先要有一个已经部署好的Logstash&＃xff0c;当然可以使用腾讯云快速创建一个Elasticsearch创建地址
&＃xff08;2&＃xff09;在first-pipeline.conf中增加Elasticsearch的配置&＃xff0c;如下

input {beats {port &＃61;> "5044"}}filter {grok {match &＃61;> { "message" &＃61;> "%{COMBINEDAPACHELOG}"}}geoip {source &＃61;> "clientip"}}output {elasticsearch {hosts &＃61;> [ "localhost:9200" ]}}

&＃xff08;3&＃xff09;清理filebeat历史数据&＃xff0c;并重启
&＃xff08;4&＃xff09;查询Elasticsearch确认数据是否正常上传&＃xff08;注意替换查询语句中的日期&＃xff09;

&＃39;http://172.16.16.17:9200/logstash-2018.10.09/_search?pretty&q&＃61;response&＃61;200&＃39;

&＃xff08;5&＃xff09;如果Elasticsearch关联了Kibana也可以使用kibana查看数据是否正常上报

Logstash提供了大量的Input, filter, output, codec的插件&＃xff0c;用户可以根据自己的需要&＃xff0c;使用一个或多个组件实现自己的功能&＃xff0c;当然用户也可以自定义插件以实现更为定制化的功能。自定义插件可以参考[logstash input插件开发]

3 部署Logstash

演示过如何快速使用Logstash后&＃xff0c;现在详细讲述一下Logstash的部署方式。

3.1 安装

安装JDK&＃xff1a;Logstash采用JRuby编写&＃xff0c;运行需要JDK环境&＃xff0c;因此安装Logstash前需要先安装JDK。&＃xff08;当前6.4仅支持JDK8&＃xff09;
安装Logstash&＃xff1a;可以采用直接下载压缩包方式安装&＃xff0c;也通过APT或YUM安装&＃xff0c;另外Logstash支持安装到Docker中。[Logstash安装参考]
安装X-PACK&＃xff1a;在6.3及之后版本X-PACK会随Logstash安装&＃xff0c;在此之前需要手动安装[参考链接]

3.2 目录结构

logstash的目录主要包括&＃xff1a;根目录、bin目录、配置目录、日志目录、插件目录、数据目录

不同安装方式各目录的默认位置参考[此处]

3.3 配置文件

Pipeline配置文件&＃xff0c;名称可以自定义&＃xff0c;在启动Logstash时显式指定&＃xff0c;编写方式可以参考前面示例&＃xff0c;对于具体插件的配置方式参见具体插件的说明(使用Logstash时必须配置)&＃xff1a;
用于定义一个pipeline&＃xff0c;数据处理方式和输出源
Settings配置文件(可以使用默认配置)&＃xff1a;
在使用Logstash时可以不用设置&＃xff0c;用于性能调优&＃xff0c;日志记录等
- logstash.yml&＃xff1a;用于控制logstash的执行过程[参考链接]
- pipelines.yml: 如果有多个pipeline时使用该配置来配置多pipeline执行[参考链接]
- jvm.options&＃xff1a;jvm的配置
- log4j2.properties:log4j 2的配置&＃xff0c;用于记录logstash运行日志[参考链接]
- startup.options: 仅适用于Lniux系统&＃xff0c;用于设置系统启动项目&＃xff01;

为了保证敏感配置的安全性&＃xff0c;logstash提供了配置加密功能[参考链接]

3.4 启动关闭方式

3.4.1 启动

命令行启动
在debian和rpm上以服务形式启动
在docker中启动3.4.2 关闭
关闭Logstash
Logstash的关闭时会先关闭input停止输入&＃xff0c;然后处理完所有进行中的事件&＃xff0c;然后才完全停止&＃xff0c;以防止数据丢失&＃xff0c;但这也导致停止过程出现延迟或失败的情况。

3.5 扩展Logstash

当单个Logstash无法满足性能需求时&＃xff0c;可以采用横向扩展的方式来提高Logstash的处理能力。横向扩展的多个Logstash相互独立&＃xff0c;采用相同的pipeline配置&＃xff0c;另外可以在这多个Logstash前增加一个LoadBalance&＃xff0c;以实现多个Logstash的负载均衡。

4 性能调优

[详细调优参考]

&＃xff08;1&＃xff09;Inputs和Outputs的性能&＃xff1a;当输入输出源的性能已经达到上限&＃xff0c;那么性能瓶颈不在Logstash&＃xff0c;应优先对输入输出源的性能进行调优。
&＃xff08;2&＃xff09;系统性能指标&＃xff1a;
- CPU&＃xff1a;确定CPU使用率是否过高&＃xff0c;如果CPU过高则先查看JVM堆空间使用率部分&＃xff0c;确认是否为GC频繁导致&＃xff0c;如果GC正常&＃xff0c;则可以通过调节Logstash worker相关配置来解决。
- 内存&＃xff1a;由于Logstash运行在JVM上&＃xff0c;因此注意调整JVM堆空间上限&＃xff0c;以便其有足够的运行空间。另外注意Logstash所在机器上是否有其他应用占用了大量内存&＃xff0c;导致Logstash内存磁盘交换频繁。
- I/O使用率&＃xff1a;
  1&＃xff09;磁盘IO&＃xff1a;
  磁盘IO饱和可能是因为使用了会导致磁盘IO饱和的创建&＃xff08;如file output&＃xff09;,另外Logstash中出现错误产生大量错误日志时也会导致磁盘IO饱和。Linux下可以通过iostat, dstat等查看磁盘IO情况
  2&＃xff09;网络IO&＃xff1a;
  网络IO饱和一般发生在使用有大量网络操作的插件时。linux下可以使用dstat或iftop等查看网络IO情况

&＃xff08;3&＃xff09;JVM堆检查&＃xff1a;
- 如果JVM堆大小设置过小会导致GC频繁&＃xff0c;从而导致CPU使用率过高
- 快速验证这个问题的方法是double堆大小&＃xff0c;看性能是否有提升。注意要给系统至少预留1GB的空间。
- 为了精确查找问题可以使用jmap或VisualVM。[参考]
- 设置Xms和Xmx为相同值&＃xff0c;防止堆大小在运行时调整&＃xff0c;这个过程非常消耗性能。

&＃xff08;4&＃xff09;Logstash worker设置&＃xff1a;
worker相关配置在logstash.yml中&＃xff0c;主要包括如下三个&＃xff1a;
- pipeline.workers&＃xff1a;
  该参数用以指定Logstash中执行filter和output的线程数&＃xff0c;当如果发现CPU使用率尚未达到上限&＃xff0c;可以通过调整该参数&＃xff0c;为Logstash提供更高的性能。建议将Worker数设置适当超过CPU核数可以减少IO等待时间对处理过程的影响。实际调优中可以先通过-w指定该参数&＃xff0c;当确定好数值后再写入配置文件中。
- pipeline.batch.size:
  该指标用于指定单个worker线程一次性执行flilter和output的event批量数。增大该值可以减少IO次数&＃xff0c;提高处理速度&＃xff0c;但是也以为这增加内存等资源的消耗。当与Elasticsearch联用时&＃xff0c;该值可以用于指定Elasticsearch一次bluck操作的大小。
- pipeline.batch.delay:
  该指标用于指定worker等待时间的超时时间&＃xff0c;如果worker在该时间内没有等到pipeline.batch.size个事件&＃xff0c;那么将直接开始执行filter和output而不再等待。

结束语

Logstash作为Elastic Stack的重要组成部分&＃xff0c;在Elasticsearch数据采集和处理过程中扮演着重要的角色。本文通过简单示例的演示和Logstash基础知识的铺陈&＃xff0c;希望可以帮助初次接触Logstash的用户对Logstash有一个整体认识&＃xff0c;并能较为快速上手。对于Logstash的高阶使用&＃xff0c;仍需要用户在使用过程中结合实际情况查阅相关资源深入研究。当然也欢迎大家积极交流&＃xff0c;并对文中的错误提出宝贵意见。

Logstash数据处理常见示例
Logstash日志相关配置参考
Kibana管理Logstash pipeline配置
LogstashModule
监控Logstash

欢迎关注公众号Elastic慕容&＃xff0c;和我一起进入Elastic的奇妙世界吧

推荐阅读

pip
接入支付宝小程序功能，人人租机实现从零到百的快速增长

人人租机作为国内领先的信用免押租赁平台，为企业和个人提供全方位的新租赁服务。通过接入支付宝小程序功能，该平台实现了从零到百的迅猛增长，成为全国首家推出“新租赁小程序”开发服务的阿里巴巴小程序服务商（ISV）。这一创新举措不仅提升了用户体验，还显著增强了平台的市场竞争力。 ... [详细]

蜡笔小新 2024-11-02 13:00:12
import
scrapyredis分布式爬虫

scrapyredis分布式爬虫 ... [详细]

蜡笔小新 2024-12-02 12:00:49
sum
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
io
Java Daemon 线程与 Random 类源码解析

本文详细探讨了 Java 中 Daemon 线程的特点及其应用场景，并深入分析了 Random 类的源代码，帮助开发者更好地理解和使用这些核心组件。 ... [详细]

蜡笔小新 2024-12-02 18:13:21
io
Python 实现 Canny 边缘检测算法

图像中的边缘信息主要集中在高频部分，因此图像锐化或边缘检测实质上是进行高频滤波。微分运算能够增强信号的高频成分，从而在空间域中通过计算微分实现图像锐化。本文将详细介绍如何使用 Python 实现 Canny 边缘检测算法。 ... [详细]

蜡笔小新 2024-12-02 16:15:30
get
VSCode中实现大型项目函数跳转的方法

在处理大型代码项目时，简单的C/C++插件往往无法满足需求。本文介绍如何通过配置GNU Global等工具，在VSCode中实现高效的函数跳转。 ... [详细]

蜡笔小新 2024-11-28 14:01:47
io
构建高性能Feed流系统的设计指南

随着移动互联网的发展，Feed流系统成为了众多社交应用的核心组成部分。本文将深入探讨如何设计一个高效、稳定的Feed流系统，涵盖从基础架构到高级特性的各个方面。 ... [详细]

蜡笔小新 2024-11-26 12:55:53
io
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
get
Elasticsearch 写入与查询的底层机制解析

本文深入解析了Elasticsearch写入与查询的底层机制。在数据写入过程中，首先会将数据暂存至内存缓冲区，在此阶段数据尚不可被搜索。同时，为了保证数据的持久性和可靠性，系统会将这些数据同步记录到事务日志（translog）中。当内存缓冲区接近满载时，系统会触发刷新操作，将缓冲区中的数据写入到磁盘上的段文件中，从而使其可被搜索。此外，文章还探讨了查询过程中涉及的索引分片、倒排索引等关键技术，为读者提供了全面的技术理解。 ... [详细]

蜡笔小新 2024-11-04 19:00:33
post
Elasticsearch 嵌套调用中动态类导致数据返回异常分析与解决方案

Elasticsearch 嵌套调用中动态类导致数据返回异常分析与解决方案 ... [详细]

蜡笔小新 2024-10-26 16:29:42
post
利用Jenkins与SonarQube集成实现高效代码质量检测与优化

本文探讨了通过在 Jenkins 多分支流水线中集成 SonarQube，实现高效且自动化的代码质量检测与优化方法。该方案不仅提高了开发团队的代码审查效率，还确保了软件项目的持续高质量交付。 ... [详细]

蜡笔小新 2024-10-26 13:04:29
shell
Zsh 开发指南（第三篇字符串处理之转义字符和格式化输出）

导读上一篇讲了zsh的常用字符串操作，这篇开始讲更为琐碎的转义字符和格式化输出相关内容。包括转义字符、引号、print、printf的使用等等。其中很多内容没有必要记忆，作为手册参 ... [详细]

蜡笔小新 2024-12-03 03:30:40
shell
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
io
PHP预处理常量详解：如何定义与使用常量

PHP预处理常量详解：如何定义与使用常量 ... [详细]

蜡笔小新 2024-11-09 11:31:23
io
Linux系统中的日志管理与维护策略

#journalctl命令的用法#用journal服务永久存储日志系统默认日志存放在runlogjournal中，默认方式在系统重启后之前的日志会被清理要永久保存 ... [详细]

蜡笔小新 2024-10-22 18:49:14