当前位置: 开发笔记 > 编程语言 > 正文

logstash的各个场景应用（配置文件均已实践过）

作者：kenvilen_106 | 来源：互联网 | 2023-05-19 14:32

场景：1）datasource->logstash->elasticsearch->kibana2）datasource->filebeat->logstas

场景：

1） datasource->logstash->elasticsearch->kibana

2） datasource->filebeat->logstash-> elasticsearch->kibana

3） datasource->filebeat->logstash->redis/kafka->logstash-> elasticsearch->kibana

4） kafka->logstash-> elasticsearch->kibana

5） datasource->filebeat->kafka->logstash->elasticsearch->kibana(最常用)

6） filebeatSSL加密传输

7） datasource->logstash->redis/kafka->logstash->elasticsearch->kibana

8） mysql->logstash->elasticsearch->kibana

上述主要是对下面传输处理场景的一个概括，从数据源开始，如何采集，用什么工具采集，采集到哪里，经过怎样的处理过滤，传输到哪里，怎样进行展示

输入、输出、过滤主要通过插件实现（包含多类型插件），插件教程参考官网

https://www.elastic.co/guide/en/logstash/current/index.html

【安装部署这种官网或者社区已经很完善，此处不做赘述，可自行去官网查看】

ps【redis集群安装文档前面已经说明过，可自行查看】

前提条件

1） java环境：jdk8；

2） elk已搭建完毕；

3） elasticsearch、kibana、logstash版本最好保持一致，目前环境是5.6.10版本

4） logstash建议使用root用户（拥有足够权限去搜集所需日志文件）；

5） elasticsearch使用普通用户安装，新版本已限制不允许root安装；

6） filebeat安装完毕

启动命令：

7） logstash启动命令：

nohup ./bin/logstash -f ***.conf –config.reload.automatic >/dev/null 2>/dev/null &

8） filebeat启动命令： nohup ./filebeat -e -c filebeat.yml>/dev/null 2>/dev/null &

9）elasticsearch启动命令：./elasticsearch -d

10）kibana启动命令：nohup ./bin/kibana &

Logstash启动命令：--config.reload.automatic自动重新加载配置文件，无需重启logstash

filebeat启动命令：-e参数指定输出日志到stderr，-c参数指定配置文件路径

场景介绍

一、 简单模式：以logstash作为日志搜索器

架构：logstash采集、处理、转发到elasticsearch存储，在kibana进行展示

特点：这种结构因为需要在各个服务器上部署 Logstash，而它比较消耗 CPU 和内存资源，所以比较适合计算资源丰富的服务器，否则容易造成服务器性能下降，甚至可能导致无法正常工作。

HTTP/1.1" 200 203023 "http://semicomplete.com/presentations/logstash-monitorama-2013/" "Mozilla/5.0 (Macintosh; Intel

Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36"

经过grok正则分析后：

"clientip" => "192.168.80.183",

"timestamp" => "04/Jan/2018:05:13:42 +0000",

"verb" => "GET",

"request" => "/presentations/logstash-monitorama-2013/images/kibana-search.png",

"referrer" => "\"http://semicomplete.com/presentations/logstash-monitorama-2013/\"",

"response" => "200",

"bytes" => "203023",

"agent" => "\"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36\"",

示例三（自定义grok表达式mypattern[A-Z]）：

filter {

grok{
　　match=>{
　　　　"message"=>"%{IP:clientip}\s+(?[A-Z]+)"}
}

}

初始输入message：

12.12.12.12 ABC

经过grok正则分析后：

"clientip" => "12.12.12.12",
"mypattern" => "ABC"

示例四（移除重复字段）：

filter {

grok {

#match => { "message" => "%{COMBINEDAPACHELOG}"}

match => { "message" => "%{IP:clientip}\s+%{IP:clientip1}"}

}

mutate {

remove_field => ["message"]

remove_field => ["host"]

}

初始输入message：

1.1.1.1 2.2.2.2

经过grok正则解析后（json格式）：

{

"_index": "logstash-2018.07.31",

"_type": "log",

"_id": "AWTuNdzp6Wkp4mVEj3Fh",

"_version": 1,

"_score": null,

"_source": {

"@timestamp": "2018-07-31T02:41:00.014Z",

"offset": 1114,

"clientip": "1.1.1.1",

"@version": "1",

"input_type": "log",

"beat": {

"name": "node183",

"hostname": "node183",

"version": "5.6.10"

"source": "/home/usieip/bdp-datashare/logs/a.log",

"type": "log",

"clientip1": "2.2.2.2",

"tags": [

"beats_input_codec_plain_applied"

]

"fields": {

"@timestamp": [

1533004860014

]

"sort": [

1533004860014

]

}

示例五（过滤筛选catalina.out文件中的信息，message字段已移除）：

filter {

grok {

match => { "message" =>

"%{DATA:ymd} %{DATA:sfm} %{DATA:http} %{DATA:info} %{GREEDYDATA:index}"}

}

【Data在pattern中的定义是：.*? GREEDYDATA在pattern中的定义是：.*】

初始输入message：

2018-07-30 17:04:31.317 [http-bio-8080-exec-19] INFO c.u.i.b.m.s.i.LogInterceptor - ViewName: modules/datashare/front/index

经过grok正则解析后（截图及json格式如下）：

{

"_index": "logstash-2018.07.31",

"_type": "log",

"_id": "AWTvhiPD6Wkp4mVEj3GU",

"_version": 1,

"_score": null,

"_source": {

"offset": 125,

"input_type": "log",

"index": "c.u.i.b.m.s.i.LogInterceptor - ViewName: modules/datashare/front/index",

"source": "/home/usieip/bdp-datashare/logs/b.log",

"type": "log",

"tags": [],

"ymd": "2018-07-30",

"@timestamp": "2018-07-31T08:48:17.948Z",

"@version": "1",

"beat": {

"name": "node183",

"hostname": "node183",

"version": "5.6.10"

"http": "[http-bio-8080-exec-19]",

"sfm": "17:04:31.317",

"info": "INFO"

"fields": {

"ymd": [

1532908800000

"@timestamp": [

1533026897948

]

"sort": [

1533026897948

]

}

常用参数：

1）match：match作用：用来对字段的模式进行匹配

2）patterns_dir：用来指定规则的匹配路径，如果使用logstash自定义的规则时，不需要写此参数。Patterns_dir可以同时制定多个存放过滤规则的目录；

patterns_dir => ["/opt/logstash/patterns","/opt/logstash/extra_patterns"]

3）remove_field：如果匹配到某个”日志字段，则将匹配的这个日志字段从这条日志中删除（多个以逗号隔开）

remove_field => ["foo _％{somefield}"]

2、 clone-filter：克隆过滤器用于复制事件

3、 drop-filter：丢弃所有活动

4、 json-filter：解析JSON事件

5、 kv-filter：解析键值对

非常用参数：

参考教程：https://www.elastic.co/guide/en/logstash/current/filter-plugins.html

十二、Logstash-output插件及插件参数概览

所有输出插件均支持以下配置：

Setting	Input type	Required
`codec`	codec	No（默认plain）
`enable_metric`	boolean	No（默认true）
`id`	string	No

常用插件：

1、Elasticsearch-output：此插件是在Elasticsearch中存储日志的推荐方法。如果您打算使用Kibana Web界面，则需要使用此输出

2、file-output：此输出将事件写入磁盘上的文件（path字段必填项）

3、kafka-output：将事件写入Kafka主题（topic_id是必填项）

4、 redis-output：此输出将使用RPUSH将事件发送到Redis队列

5、stdout-output：一个简单的输出，打印到运行Logstash的shell的STDOUT

非常用插件：

参考官网教程链接：https://www.elastic.co/guide/en/logstash/current/output-plugins.html

十三、Logstash与flume简单对比

1）结构：

Logstash： Shipper、Broker、Indexer (broker部署redis或者kafka进行缓存)

Flume： Source、Channel、Sink

Logstash已集成，broker可以不需要，直接读取处理输出，不进行缓存

Flume需单独配置，三组件缺一不可

2）配置：

Logstash：配置简洁清晰，三个部分的属性都定义好了，可自行选择，若没有，可自行开发插件，便捷易用；且logstash在Filter plugin部分具有比较完备的功能，比如grok，能通过正则解析和结构化任何文本，Grok 目前是Logstash最好的方式对非结构化日志数据解析成结构化和可查询化。此外，Logstash还可以重命名、删除、替换和修改事件字段，当然也包括完全丢弃事件，如debug事件。还有很多的复杂功能可供选择，

Flume：配置繁琐，分别手动配置source、channel、sink，采集环境如果复杂需要多个。Flume的插件比较多，channel常用的就内存和文件两种

3）初衷：

Flume侧重数据的传输，使用者需非常清楚整个数据的路由，相对来说其更可靠，channel是用于持久化目的的，数据必须确认传输到下一个目的地，才会删除；

Logstash侧重数据的预处理，日志字段经过预处理之后再进行解析

4）组件：

logstash可以与elk其他组件配合使用、开发，应用简单，使用场景广泛；

flume新版本轻量级，适合有一定计算编程基础的人使用，且场景针对性强，需要配合很多其他工具进行使用，不方便

5）举例：

Logstash：主板、电源、硬盘，机箱等都已经装好的台式机，可以直接用

Flume ：提供一套完整的主板，电源、硬盘、机箱等，自行组装，装好了才能用

推荐阅读

加密
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
加密
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
sum
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
sum
RocketMQ在秒杀时的应用

目录一、RocketMQ是什么二、broker和nameserver2.1Broker2.2NameServer三、MQ在秒杀场景下的应用3.1利用MQ进行异步操作3. ... [详细]

蜡笔小新 2024-11-14 12:27:39
sum
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
sum
阿里巴巴终面技术挑战：如何利用 UDP 实现 TCP 功能？

在阿里巴巴的技术面试中，技术总监曾提出一道关于如何利用 UDP 实现 TCP 功能的问题。当时回答得不够理想，因此事后进行了详细总结。通过与总监的进一步交流，了解到这是一道常见的阿里面试题。面试官的主要目的是考察应聘者对 UDP 和 TCP 在原理上的差异的理解，以及如何通过 UDP 实现类似 TCP 的可靠传输机制。 ... [详细]

蜡笔小新 2024-11-11 11:50:49
sum
从小微企业到大型企业：Java架构师实战训练营首周体验

在当今的软件开发领域，分布式技术已成为程序员不可或缺的核心技能之一，尤其在面试中更是考察的重点。无论是小微企业还是大型企业，掌握分布式技术对于提升工作效率和解决实际问题都至关重要。本周的Java架构师实战训练营中，我们深入探讨了Kafka这一高效的分布式消息系统，它不仅支持发布订阅模式，还能在高并发场景下保持高性能和高可靠性。通过实际案例和代码演练，学员们对Kafka的应用有了更加深刻的理解。 ... [详细]

蜡笔小新 2024-11-09 11:21:43
select
提升 Kubernetes 集群管理效率的七大专业工具

Kubernetes 在云原生环境中的应用日益广泛，然而集群管理的复杂性也随之增加。为了提高管理效率，本文推荐了七款专业工具，这些工具不仅能够简化日常操作，还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查，这些工具覆盖了集群管理的各个方面，帮助管理员更好地应对挑战。 ... [详细]

蜡笔小新 2024-11-07 17:01:31
select
修复一个 Bug 竟耗时两天？真的有那么复杂吗？

修复一个 Bug 竟然耗费了两天时间？这背后究竟隐藏着怎样的复杂性？本文将深入探讨这个看似简单的 Bug 为何会如此棘手，从代码层面剖析问题根源，并分享解决过程中遇到的技术挑战和心得。 ... [详细]

蜡笔小新 2024-10-30 13:58:14
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
python
Java 点餐系统源代码附带管理后台（免费提供）

本项目提供了一套基于 Java 的点餐系统，包括前端小程序和后端管理平台。采用 Spring Boot 和 SSM 框架，结合 MySQL 和 Redis 数据库技术，适用于学习和二次开发。有需要源代码的开发者可以通过私信联系，免费获取下载链接。 ... [详细]

蜡笔小新 2024-11-05 17:45:01
sum
探究大数据环境下Kafka实现高性能的几个关键因素

在大数据环境下，Kafka能够实现高性能的关键因素在于其独特的设计和优化策略。尽管Kafka的消息存储在磁盘上，这通常被认为会降低性能，但通过高效的文件管理和批量处理机制，Kafka能够在高吞吐量和低延迟之间取得平衡。此外，Kafka还利用了零拷贝技术、压缩算法和异步IO等手段，进一步提升了系统的整体性能。这些技术不仅保证了数据的可靠性和持久性，还使得Kafka成为处理大规模实时数据流的理想选择。 ... [详细]

蜡笔小新 2024-11-05 16:07:20
function
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
rsa
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
rsa
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06

kenvilen_106

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章