ELK工作栈

作者：小-捌_350 | 来源：互联网 | 2023-06-28 18:57

ELK技术栈介绍一、ELK工作栈简介1．简介ELKStack是Elasticsearch、Logstash、Kibana三个开源软件的组合。在实时数据检索和分析场

ELK技术栈介绍

一、 ELK工作栈简介

1&＃xff0e; 简介

ELKStack 是 Elasticsearch、Logstash、Kibana 三个开源软件的组合。在实时数据检索和分析场合&＃xff0c;三者通常是配合共用&＃xff0c;而且又都先后归于 Elastic.co 公司名下&＃xff0c;故有此简称。

ELKStack 在最近两年迅速崛起&＃xff0c;成为机器数据分析&＃xff0c;或者说实时日志处理领域&＃xff0c;开源界的第一选择。和传统的日志处理方案相比&＃xff0c;ELK Stack 具有如下几个优点&＃xff1a;

处理方式灵活。Elasticsearch 是实时全文索引&＃xff0c;不需要像storm 那样预先编程才能使用&＃xff1b;

配置简易上手。Elasticsearch 全部采用 JSON 接口&＃xff0c;Logstash 是 Ruby DSL 设计&＃xff0c;都是目前业界最通用的配置语法设计&＃xff1b;

检索性能高效。虽然每次查询都是实时计算&＃xff0c;但是优秀的设计和实现基本可以达到全天数据查询的秒级响应&＃xff1b;

集群线性扩展。不管是 Elasticsearch 集群还是 Logstash 集群都是可以线性扩展的&＃xff1b;

前端操作炫丽。Kibana 界面上&＃xff0c;只需要点击鼠标&＃xff0c;就可以完成搜索、聚合功能&＃xff0c;生成炫丽的仪表板。

当然&＃xff0c;ELK Stack 也并不是实时数据分析界的灵丹妙药。在不恰当的场景&＃xff0c;反而会事倍功半。我自 2014 年初开 QQ 群交流 ELK Stack&＃xff0c;发现网友们对 ELKStack 的原理概念&＃xff0c;常有误解误用&＃xff1b;对实现的效果&＃xff0c;又多有不能理解或者过多期望而失望之处。更令我惊奇的是&＃xff0c;网友们广泛分布在传统企业和互联网公司、开发和运维领域、Linux 和 Windows 平台&＃xff0c;大家对非专精领域的知识&＃xff0c;一般都缺乏了解&＃xff0c;这也成为使用 ELK Stack 时的一个障碍。

二、 Logstash数据采集工具安装和使用

1&＃xff0e; 官方网站

https://www.elastic.co/products/logstash#

2&＃xff0e; 简介

Logstash是一款轻量级的日志搜集处理框架&＃xff0c;可以方便的把分散的、多样化的日志搜集起来&＃xff0c;并进行自定义的处理&＃xff0c;然后传输到指定的位置&＃xff0c;比如某个服务器或者文件。

3&＃xff0e; 安装

下载后直接解压&＃xff0c;就可以了。

4&＃xff0e; helloword使用

通过命令行&＃xff0c;进入到logstash/bin目录&＃xff0c;执行下面的命令&＃xff1a;

logstash -e ""

　　可以看到提示下面信息&＃xff08;这个命令稍后介绍&＃xff09;&＃xff0c;输入hello world!

可以看到logstash尾我们自动添加了几个字段&＃xff0c;时间戳&＃64;timestamp&＃xff0c;版本&＃64;version&＃xff0c;输入的类型type&＃xff0c;以及主机名host。

4.1&＃xff0e; 简单的工作原理

　　Logstash使用管道方式进行日志的搜集处理和输出。有点类似*NIX系统的管道命令 xxx | ccc | ddd&＃xff0c;xxx执行完了会执行ccc&＃xff0c;然后执行ddd。

　　在logstash中&＃xff0c;包括了三个阶段:

　　输入input --> 处理filter&＃xff08;不是必须的&＃xff09; -->输出output

　　每个阶段都由很多的插件配合工作&＃xff0c;比如file、elasticsearch、redis等等。

　　每个阶段也可以指定多种方式&＃xff0c;比如输出既可以输出到elasticsearch中&＃xff0c;也可以指定到stdout在控制台打印。

　　由于这种插件式的组织方式&＃xff0c;使得logstash变得易于扩展和定制。

4.2&＃xff0e; 命令行中常用的命令

　　-f&＃xff1a;通过这个命令可以指定Logstash的配置文件&＃xff0c;根据配置文件配置logstash

　　-e&＃xff1a;后面跟着字符串&＃xff0c;该字符串可以被当做logstash的配置&＃xff08;如果是“” 则默认使用stdin作为输入&＃xff0c;stdout作为输出&＃xff09;

　　-l&＃xff1a;日志输出的地址&＃xff08;默认就是stdout直接在控制台中输出&＃xff09;

　　-t&＃xff1a;测试配置文件是否正确&＃xff0c;然后退出。

4.3&＃xff0e; 配置文件说明

　　前面介绍过logstash基本上由三部分组成&＃xff0c;input、output以及用户需要才添加的filter&＃xff0c;因此标准的配置文件格式如下&＃xff1a;

input {...}

filter {...}

output {...}

在每个部分中&＃xff0c;也可以指定多个访问方式&＃xff0c;例如我想要指定两个日志来源文件&＃xff0c;则可以这样写&＃xff1a;

input {

file { path &＃61;>"/var/log/messages" type &＃61;>"syslog"}

file { path &＃61;>"/var/log/apache/access.log" type &＃61;>"apache"}

}

　　类似的&＃xff0c;如果在filter中添加了多种处理规则&＃xff0c;则按照它的顺序一一处理&＃xff0c;但是有一些插件并不是线程安全的。

　　比如在filter中指定了两个一样的的插件&＃xff0c;这两个任务并不能保证准确的按顺序执行&＃xff0c;因此官方也推荐避免在filter中重复使用插件。

说完这些&＃xff0c;简单的创建一个配置文件的小例子看看&＃xff1a;

input {

file {

　　 #指定监听的文件路径&＃xff0c;注意必须是绝对路径

path &＃61;> "E:/software/logstash-1.5.4/logstash-1.5.4/data/test.log"

start_position &＃61;> beginning

}

filter {

}

output {

stdout {}

}

日志大致如下&＃xff1a;注意最后有一个空行。

1 hello,this is first line in test.log!

2 hello,my name is xingoo!

3 goodbye.this is last line in test.log!

执行命令得到如下信息&＃xff1a;

5&＃xff0e; 最常用的input插件——file。

　这个插件可以从指定的目录或者文件读取内容&＃xff0c;输入到管道处理&＃xff0c;也算是logstash的核心插件了&＃xff0c;大多数的使用场景都会用到这个插件&＃xff0c;因此这里详细讲述下各个参数的含义与使用。

5.1&＃xff0e; 最小化的配置文件

在Logstash中可以在 input{} 里面添加file配置&＃xff0c;默认的最小化配置如下&＃xff1a;

input {

file {

path &＃61;> "E:/software/logstash-1.5.4/logstash-1.5.4/data/*"

}

filter {

}

output {

stdout {}

}

当然也可以监听多个目标文件&＃xff1a;

input {

file {

path &＃61;> ["E:/software/logstash-1.5.4/logstash-1.5.4/data/*","F:/test.txt"]

}

filter {

}

output {

stdout {}

}

5.2&＃xff0e; 其他的配置

另外&＃xff0c;处理path这个必须的项外&＃xff0c;file还提供了很多其他的属性&＃xff1a;

input {

file {

#监听文件的路径

path &＃61;> ["E:/software/logstash-1.5.4/logstash-1.5.4/data/*","F:/test.txt"]

#排除不想监听的文件

exclude &＃61;> "1.log"

#添加自定义的字段

add_field &＃61;> {"test"&＃61;>"test"}

#增加标签

tags &＃61;> "tag1"

#设置新事件的标志

delimiter &＃61;> "\n"

#设置多长时间扫描目录&＃xff0c;发现新文件

discover_interval &＃61;> 15

#设置多长时间检测文件是否修改

stat_interval &＃61;> 1

#监听文件的起始位置&＃xff0c;默认是end

start_position &＃61;> beginning

#监听文件读取信息记录的位置

sincedb_path &＃61;> "E:/software/logstash-1.5.4/logstash-1.5.4/test.txt"

#设置多长时间会写入读取的位置信息

sincedb_write_interval &＃61;> 15

}

filter {

}

output {

stdout {}

}

其中值得注意的是&＃xff1a;

1 path

　　是必须的选项&＃xff0c;每一个file配置&＃xff0c;都至少有一个path

2 exclude

　　是不想监听的文件&＃xff0c;logstash会自动忽略该文件的监听。配置的规则与path类似&＃xff0c;支持字符串或者数组&＃xff0c;但是要求必须是绝对路径。

　　3start_position

　　是监听的位置&＃xff0c;默认是end&＃xff0c;即一个文件如果没有记录它的读取信息&＃xff0c;则从文件的末尾开始读取&＃xff0c;也就是说&＃xff0c;仅仅读取新添加的内容。对于一些更新的日志类型的监听&＃xff0c;通常直接使用end就可以了&＃xff1b;相反&＃xff0c;beginning就会从一个文件的头开始读取。但是如果记录过文件的读取信息&＃xff0c;这个配置也就失去作用了。

　　4sincedb_path

　　这个选项配置了默认的读取文件信息记录在哪个文件中&＃xff0c;默认是按照文件的inode等信息自动生成。其中记录了inode、主设备号、次设备号以及读取的位置。因此&＃xff0c;如果一个文件仅仅是重命名&＃xff0c;那么它的inode以及其他信息就不会改变&＃xff0c;因此也不会重新读取文件的任何信息。类似的&＃xff0c;如果复制了一个文件&＃xff0c;就相当于创建了一个新的inode&＃xff0c;如果监听的是一个目录&＃xff0c;就会读取该文件的所有信息。

　　5 其他的关于扫描和检测的时间&＃xff0c;按照默认的来就好了&＃xff0c;如果频繁创建新的文件&＃xff0c;想要快速监听&＃xff0c;那么可以考虑缩短检测的时间。

　　6add_field

　　就是增加一个字段&＃xff0c;例如&＃xff1a;

file {

add_field &＃61;> {"test"&＃61;>"test"}

path &＃61;> "D:/tools/logstash/path/to/groksample.log"

start_position &＃61;> beginning

}

6&＃xff0e; 　Kafka与Logstash的数据采集对接

基于Logstash跑通Kafka还是需要注意很多东西&＃xff0c;最重要的就是理解Kafka的原理。

6.1&＃xff0e; Logstash工作原理

由于Kafka采用解耦的设计思想&＃xff0c;并非原始的发布订阅&＃xff0c;生产者负责产生消息&＃xff0c;直接推送给消费者。而是在中间加入持久化层——broker,生产者把数据存放在broker中&＃xff0c;消费者从broker中取数据。这样就带来了几个好处:

1 生产者的负载与消费者的负载解耦

2 消费者按照自己的能力fetch数据

3 消费者可以自定义消费的数量

另外&＃xff0c;由于broker采用了主题topic-->分区的思想&＃xff0c;使得某个分区内部的顺序可以保证有序性&＃xff0c;但是分区间的数据不保证有序性。这样&＃xff0c;消费者可以以分区为单位&＃xff0c;自定义读取的位置——offset。

Kafka采用zookeeper作为管理&＃xff0c;记录了producer到broker的信息&＃xff0c;以及consumer与broker中partition的对应关系。因此&＃xff0c;生产者可以直接把数据传递给broker&＃xff0c;broker通过zookeeper进行leader-->followers的选举管理&＃xff1b;消费者通过zookeeper保存读取的位置offset以及读取的topic的partition分区信息。

由于上面的架构设计&＃xff0c;使得生产者与broker相连&＃xff1b;消费者与zookeeper相连。有了这样的对应关系&＃xff0c;就容易部署logstash-->kafka-->logstash的方案了。

接下来&＃xff0c;按照下面的步骤就可以实现logstash与kafka的对接了。

6.2&＃xff0e; 启动kafka

启动zookeeper&＃xff1a;

$zookeeper/bin/zkServer.sh start

启动kafka&＃xff1a;

$kafka/bin/kafka-server-start.sh $kafka/config/server.properties&

6.3&＃xff0e; 创建主题

创建主题:

$kafka/bin/kafka-topics.sh --zookeeper 127.0.0.1:2181--create --topic hello --replication-factor 1--partitions 1

查看主题:

$kafka/bin/kafka-topics.sh --zookeeper127.0.0.1:2181 --describe

6.4&＃xff0e; 测试环境

执行生产者脚本:

$kafka/bin/kafka-console-producer.sh --broker-list 10.0.67.101:9092 --topic hello

执行消费者脚本&＃xff0c;查看是否写入:

$kafka/bin/kafka-console-consumer.sh--zookeeper 127.0.0.1:2181 --from-beginning--topic hello

6.5&＃xff0e; 向kafka中输出数据

input{

stdin{}

}

output{

kafka{

topic_id &＃61;> "hello"

bootstrap_servers &＃61;> "192.168.0.4:9092,172.16.0.12:9092"

# kafka的地址

batch_size &＃61;> 5

codec &＃61;> plain {

format &＃61;> "%{message}"

charset &＃61;> "UTF-8"

}

stdout{

codec &＃61;> rubydebug

}

6.6&＃xff0e; 从kafka中读取数据

logstash配置文件:

input{

kafka {

codec &＃61;> "plain"

group_id &＃61;> "logstash1"

auto_offset_reset &＃61;> "smallest"

reset_beginning &＃61;> true

topic_id &＃61;> "hello"

zk_connect &＃61;> "192.168.0.5:2181"

}

output{

stdout{

codec &＃61;> rubydebug

}

推荐阅读

运维
ELK 日志采集框架（七）：Kibana安装与配置

1资源资源信息版本号备注 ... [详细]

蜡笔小新 2023-10-10 14:18:26
运维
优秀到卓越就差比他更快搭建elk集群架构上篇

工作原理开源分布式搜索引擎，特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制 ... [详细]

蜡笔小新 2023-10-10 19:47:17
运维
ELK 日志系统入门及通过 Docker 部署

1.ELK系统是什么ELK是一套日志中心解决方案，其三个字母分别表示：Elasticsearch：负责日志存储及检索Logstash&#x ... [详细]

蜡笔小新 2023-10-10 18:48:38
运维
Rancher 部署 logstash

RancherOnlogstash一、下载logstash镜像二、创建挂载目录与映射配置文件2.1创建配置文件2.2配置启动命令2.3映射配置文件概述：logstas ... [详细]

蜡笔小新 2023-10-10 16:58:56
运维
E L K ⽇志分析系统

ELK⽇志分析系统elk介绍1.应⽤需求前景（1）业务发展越来越庞⼤，服务器越来越多；（2）各种访问⽇志、应⽤⽇志、错误⽇志量越来越多，导致运维⼈员⽆法很好的去管理⽇志；（3）开 ... [详细]

蜡笔小新 2023-10-10 16:24:00
运维
如何在服务器主机上实现文件共享的方法和工具

本文介绍了在服务器主机上实现文件共享的方法和工具，包括Linux主机和Windows主机的文件传输方式，Web运维和FTP/SFTP客户端运维两种方式，以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外，还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK，以及主机迁移服务会收集的源端服务器信息。 ... [详细]

蜡笔小新 2023-12-13 13:23:48
go
Linux如何安装Mongodb的详细步骤和注意事项

本文介绍了Linux如何安装Mongodb的详细步骤和注意事项，同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库，适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作，能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]

蜡笔小新 2023-12-12 21:54:15
go
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
require
Node.js学习笔记(一)package.json及cnpm

本文介绍了Node.js中包的概念，以及如何使用包来统一管理具有相互依赖关系的模块。同时还介绍了NPM（Node Package Manager）的基本介绍和使用方法，以及如何通过NPM下载第三方模块。 ... [详细]

蜡笔小新 2023-12-10 18:26:02
require
Windows简单部署Exceptionless

部署准备Elasticsearch、Exceptionless.API、Exceptionless.UI、URLRewrite、.NET运行时 1、安装ElasticSearch1 ... [详细]

蜡笔小新 2023-10-17 01:41:57
require
将日志从远程服务器拉入Elasticsearch

简短的问题是：是否可以从远程服务器中提取日志（在日志文件中）并将其提取到 ... [详细]

蜡笔小新 2023-10-13 11:23:51
search
架构师必读：日均500万数据，如何进行数据存储选型？

点击上方关注我，选择“置顶或者星标”作者：麦田里的老农来源：https:zhuanlan.zhihu.comp37964096小编公司有一 ... [详细]

蜡笔小新 2023-10-13 09:35:19
search
ELK stack 学习记录

ELK日志分析平台学习记录首先ELK主要指elasticsearch、logstash和kibana，三个开源软件组合而成的一套日志平台解决方案。可以将平时收集到的日志，通过前台展 ... [详细]

蜡笔小新 2023-10-13 09:12:39
search
Elasticsearch：Pinyin分词器

Elastic的Medcl提供了一种搜索Pinyin搜索的方法。拼音搜索在很多的应用场景中都有被用到。比如在百度搜索中，我们使用拼音就可以出现汉字：对于我们中国人来说，拼音搜索也是 ... [详细]

蜡笔小新 2023-10-12 21:02:49
search
NET Core微服务之路：简单谈谈对ELK，Splunk，Exceptionless统一日志收集中心的心得体会

前言日志，一直以来都是开发人员和运维人员最关心的问题。开发人员可通过日志记录来协助问题定位，运维人员可通过日志发现系统隐 ... [详细]

蜡笔小新 2023-10-12 13:09:51