使用filebeat采集分布式系统日志

作者：一个字-刘斌 | 来源：互联网 | 2023-07-25 23:30

前言程序猿和运维几乎每天都需要和日志打交道，不同维度下可以区分多类日志。如windows

前言

程序猿和运维几乎每天都需要和日志打交道，不同维度下可以区分多类日志。
如windows操作系统会将收集到的日志在

【计算机管理】→【系统工具】→【事件查看器】→【windows日志】。
Linux操作系统则通过syslog服务采集内核日志与非内核日志，一般存储在/var/log目录下。

上面都是系统层面的日志，我们自身研发后的各项服务最终投产后都会产生日志，在单体应用场景下日志查看很方便也很直接，可以存储到指定的目录下，出现问题直接到该目录打开日志通过关键字定位进行问题排查(当然关键日志也可以存储到数据库，后续通过sql方式排查)。

但是在分布式服务环境下，每个服务的日志都在各自的目录下甚至是直接在容器内，如果还是采取单体应用的方式进行日志检索的话效率太低了。这个时候就需要引入一个或N个中间件来解决这些烦恼了。

下图是我随意画的一张微服务场景下的日志管理流程图。

s1、s2、s3是日志的生产者(即我们的服务应用)，logCenter是一个抽象化的持久层，可以是一个文件夹目录，也可以是Redis、ElasticSearch等任何能接收数据的中间件或数据库，它们用于存储采集后的日志，view则是日志的展示层，它负责从locCenter提取数据展示。如果需要对日志进行进一步的处理可以在logCenter采集到数据后先推送到数据处理中间件然后再推送到持久层(Logstash就是起这个作用)，当然目前版本的beatfile其实已经具备了日志处理的能力，所以我下面的例子也是直接使用beatfile对日志进行处理后推送到持久层。

分布式系统日志管理方案

常见的分布式日志管理方案有下面几种
ElasticSearch + Logstash + Kibana
ElasticSearch + Fluentd + Kibana
ElasticSearch + Filebeat + Kibana
Loki + Promtail +Grafana

上面的方案均提供开源版本，其中有三种都是依赖了ElasticSearch(ES)作为日志的持久层。其中Logstash、Fluentd、Filebeat、Promtail均用于采集日志。对于日志的采集Filebeat可以说是里面性价比最高的组件(除Promtail外，Promtail不熟悉不妄下定论)，资源消耗小，完善的配置，特别适合云服务器租不起的同志们~

本篇博客主要对filebeat进行讲解，下面就步入正题！

filebeat介绍

filebeat工作流程如下(摘自官网)

fillebeat由以下几个重要组件组成

input
harvester
processors
output

我们通过filebeat.yml配置文件可以对以上组件进行配置，filebeat启动后通过读取filebeat.yml配置文件制定日志采集流程。

input

input是filebeat的输入层，input支持多种类型，如log、docker、container、mqtt、filestream ...
filebeat.yml配置文件中通过filebeat.inputs配置项进行inpu的配置，配置方式如下：

filebeat.inputs:
- type: log
paths:
- usr/local/src/efk/*.log

如上面配置filebeat的输入类型为log，paths接收多个需采集日志的目录。比如下面的配置，表示从多个目录进行日志采集：

filebeat.inputs:
- type: log
paths:
- usr/local/src/efk/*.log
- usr/local/src/srv/*.log

filebeat也支持多个输入类型，如下配置：

filebeat.inputs:
- type: log
paths:
- usr/local/src/efk/*.log
- usr/local/src/efk/*/*.log
- type: container
paths:
- '/var/lib/docker/containers/*/*.log'

如果想对当前目录下以及子目录下所有日志进行采集需要如下配置：

filebeat.inputs:
- type: log
paths:
- usr/local/src/efk/**/*.log

filebeat 将会把 `/**/` 翻译成 8 层的子目录，

假如指定了 /home/data/**/my*.log 那么等同的效果如下：

/home/data/my*.log
/home/data/*/my*.log
/home/data/*/*/my*.log
/home/data/*/*/*/my*.log
/home/data/*/*/*/*/my*.log
/home/data/*/*/*/*/*/my*.log
/home/data/*/*/*/*/*/*/my*.log
/home/data/*/*/*/*/*/*/*/my*.log
/home/data/*/*/*/*/*/*/*/*/my*.log

so，我们最终的配置如下：

filebeat.inputs:
- type: log
paths:
- usr/local/src/efk/**/*.log
- type: container
paths:
- '/var/lib/docker/containers/*/*.log'

tips

注意上面input的type有container、docker两个类型，我第一次见就傻傻分不清楚，不知道使用哪一个type才可以对容器的日志进行采集。
答案是都可以，只是两者处理方式有所不同。

container 是需要我们显示的提供容器的日志文件目录

docker 是通过提供容器本身的反方式给filebeat。
docker类型的input配置如下所示，

## 采集指定的docker容器日志
filebeat.inputs:
- type: docker
containers.ids:
- '8b6fe7dc9e067b58476dc57d6986dd96d7100430c5de3b109a99cd56ac655347'

## 采集所有的docker容器日志
filebeat.inputs:
- type: docker
containers.ids:
- '*'

containers.ids是一个非空配置项，允许提供多个容器ID，也可以通过传入 * 表示所有容器。

docker类型下的其他可选配置(部分关键的配置)：

配置项名	配置说明
containers.path	docker日志所在的基本路径。默认值是/var/lib/docker/containers
containers.paths	容器日志路径列表，如有些docker容器我们人为变更了他们的日志存储地址则需要在此处声明，该参数为一个集合，与上面的containers.path配置同时存在时containers.path配置会被忽略
exclude_linesedit	使用正则表达式过滤不需要采集的日志信息
include_linesedit	使用正则表达式约定需要采集的日志信息

harvester

harvester是filebeat在读取配置后对日志实施采集时启动的一个服务，该服务工作范畴就是日志采集。filebeat读取filebeat.yml配置文件后根据inputs启动harvester，harvester对日志文件进行逐行读取，读取的内容会放置缓冲区，后续通过processors执行完毕后推送给输出方。

processors

processors负责对采集的日志进行过滤、和加工。也是通过在filebeat.yml配置文件中预先设定processors的过滤规则，也是得益于processors的存在我才可以不需要引入Logstash。
processors允许加入多个处理器，处理流程如下：

event -> processor 1 -> event1 -> processor 2 -> event2 ...

以下配置示例将删除所有调试消息。

processors:
- drop_event:
when:
regexp:
message: "^DBG:"

output

output为输出，filebeat提供多个输出方式：

Console
Log
ElasticSearch
Redis
Kafka
Logstash
其他不常用的组件

控制台输出配置：

# 控制台输出
output.console:
pretty: true

Log输出配置：

output.file:
path: "/tmp/filebeat"
filename: filebeat

ElasticSearch输出配置：

output.elasticsearch:
hosts: ["https://myEShost:9200"]

这里需要注意的是output不像input可以定义多个，output只能在配置文件定义一次，如果需要对同一日志输出到不同的数据源则引入kafka或redis进行分发。

常见问题

问：filebeat如何处理多行日志(将多行日志合并成一行)
答：使用multiline相关配置项对日志信息进行格式化。假设日志样例数据如下

[2015-08-24 11:49:14,389] [INFO] [MESSAGE]

可以使用下面的配置对日志进行格式化：

multiline.pattern: '^\[[0-9]{4}-[0-9]{2}-[0-9]{2}'
multiline.negate: true
multiline.match: after

需注意！multiline相关配置项需放置filebeat.inputs配置下

如：

filebeat.inputs:
- type: log
paths:
- usr/local/src/efk/**/*.log

multiline.pattern: '^\[[0-9]{4}-[0-9]{2}-[0-9]{2}'
multiline.negate: true
multiline.match: after

multiline.pattern (指定用于匹配多行的正则表达式)

multiline.negate (定义模式是否被否定。默认false)

multiline.match (指定filebeat如何把多行合并成一个事件。可选的值是 after 或者 before)

multiline.max_lines (可以合并成一个事件的最大行数。如果一个多行消息包含的行数超过max_lines，则超过的行被丢弃。默认是500)

测试

目标：在配置为4G内存双核CPU的CentOS7.0版本的Linux操作系统上使用docker部署ElasticSearch + Filebeat + Kibana，将下面日志输出到ElasticSearch并在Kibana上展示出来。

样例日志内容如下：

[2021-04-22 19:26:24.585] [INFO] [http-nio-8100-exec-8-63] [serviceDemo] [1] [api.service.service.impl.CollectServiceImpl,collect] [日志信息={"remark":"这是测试数据"}

过程：
1、编写docker-compose.ym

version: "3"
services:

elasticsearch:
image: "docker.elastic.co/elasticsearch/elasticsearch:7.12.0"
hostname: "elasticsearch"
container_name: "elasticsearch"
environment:
- "ES_JAVA_OPTS=-Xms512m -Xmx512m"
- "discovery.type=single-node"
restart: unless-stopped
privileged: true
ports:
- "9200:9200"
volumes:
- elasticsearch_data:/usr/share/elasticsearch/data
- /usr/local/src/efk/elasticsearch/conf/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml
networks:
hy-net:
ipv4_address: 172.16.238.111

kibana:
image: "docker.elastic.co/kibana/kibana:7.12.0"
hostname: "kibana"
container_name: "kibana"
restart: unless-stopped
privileged: true
ports:
- "5601:5601"
volumes:
- /usr/local/src/efk/kibana/conf/kibana.yml:/usr/share/kibana/config/kibana.yml
networks:
hy-net:
ipv4_address: 172.16.238.112

filebeat:
image: "docker.elastic.co/beats/filebeat:7.12.0"
hostname: "filebeat"
container_name: "filebeat"
restart: unless-stopped
privileged: true
user: root
volumes:
- /usr/local/src/efk/filebeat/conf/filebeat.yml:/usr/share/filebeat/filebeat.yml:ro
- /usr/local/src/efk/filebeat/logs:/usr/share/filebeat/logs
- /var/lib/docker:/var/lib/docker:ro
- /var/run/docker.sock:/var/run/docker.sock
- /usr/local/src/efk/:/usr/local/src/efk/
networks:
hy-net:
ipv4_address: 172.16.238.114

volumes:
elasticsearch_data:

networks:
hy-net:
external:
name: hy-net

需注意！上面的hy-net网络是本人之前已经提前创建好的docker自定义网络。

2、创建filebeat.yml，路径是上面filebeat的数据卷信息 /usr/local/src/efk/filebeat/conf/filebeat.yml

filebeat.inputs:
- type: log
paths:
- /usr/local/src/efk/**/*.log

multiline.pattern: '^\[[0-9]{4}-[0-9]{2}-[0-9]{2}'
multiline.negate: true
multiline.match: after

- type: container
paths:
- '/var/lib/docker/containers/*/*.log'

processors:
- add_docker_metadata:
host: "unix:///var/run/docker.sock"

- decode_json_fields:
fields: ["message"]
target: "json"
overwrite_keys: true

output.elasticsearch:
hosts: ["elasticsearch:9200"]
index: "filebeat-%{+yyyy.MM.dd}"
indices:
- index: "filebeat-%{+yyyy.MM.dd}"

setup.template.name: "filebeat-"
setup.template.pattern: "filebeat-*"
setup.dashboards.enabled: true
setup.kibana:
host: "kibana:5601"

3、创建数据卷相关路径以及测试用的日志文件；

4、在docker-compose.yml路径下执行命令

docker-compose up -d

打开kibana查看日志结果如下：

ok，至此已经在目标服务器上使用Docker部署了一套日志平台，接下来修饰下相关字段，调整下日志格式基本上就OK了，当然线上环境还需要增加ElasticSearch的认证配置。

推荐阅读

web
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
web
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
web
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
export
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
export
华为捐赠欧拉操作系统，承诺不推商用版

华为近日宣布将欧拉开源操作系统捐赠给开放原子开源基金会，并承诺不会推出欧拉的商用发行版。此举旨在推动欧拉和鸿蒙操作系统的全场景融合与生态发展。 ... [详细]

蜡笔小新 2024-11-14 13:19:40
web
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
ip
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
client
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
split
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56
split
如何使用Sybase Central查看示例数据库结构

本文介绍了如何通过Sybase Central连接到示例数据库，并查看其中的表和其他对象。主要内容包括启动Sybase Central、建立连接、查看表列表及表的具体信息。 ... [详细]

蜡笔小新 2024-11-12 09:07:22
shell
Linux 计划任务 Cron 的使用与管理

本文介绍了 Linux 系统中用于定期执行任务的 cron 服务及其配置方法。通过 crond 和 crontab 命令，用户可以轻松地安排系统和用户级别的周期性任务。 ... [详细]

蜡笔小新 2024-11-13 13:40:11
ip
Ping 命令的高级用法与技巧

本文详细介绍了 Ping 命令的各种高级用法和技巧，帮助读者更好地理解和利用这一强大的网络诊断工具。 ... [详细]

蜡笔小新 2024-11-13 12:04:36
shell
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
ip
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
ip
Android 开发教程：SQLite 数据库使用详解

本视频教程将带你快速了解 Android 开发的基础知识，并详细讲解如何在 Android 应用中使用 SQLite 数据库进行数据存储和管理。 ... [详细]

蜡笔小新 2024-11-12 18:59:48

一个字-刘斌

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章