logstash日志分析的配置和使用(设计模板)

作者：手机用户2602880641 | 来源：互联网 | 2023-05-18 22:38

logstash是一个数据分析软件，主要目的是分析log日志。整一套软件可以当作一个MVC模型，logstash是controller层，Elasticsearch是一个model层，kibana是v

logstash是一个数据分析软件，主要目的是分析log日志。整一套软件可以当作一个MVC模型，logstash是controller层，Elasticsearch是一个model层，kibana是view层。

首先将数据传给logstash，它将数据进行过滤和格式化（转成JSON格式），然后传给Elasticsearch进行存储、建搜索的索引，kibana提供前端的页面再进行搜索和图表可视化，它是调用Elasticsearch的接口返回的数据进行可视化。logstash和Elasticsearch是用Java写的，kibana使用node.js框架。

这个软件官网有很详细的使用说明，https://www.elastic.co/，除了docs之外，还有视频教程。这篇博客集合了docs和视频里面一些比较重要的设置和使用。

一、logstash的配置

1. 定义数据源

写一个配置文件，可命名为logstash.conf，输入以下内容：

input {
        file {
                path => "/data/web/logstash/logFile/*/*"
                start_position => "beginning" #从文件开始处读写
        }
#       stdin {}  #可以从标准输入读数据
}

定义的数据源，支持从文件、stdin、kafka、twitter等来源，甚至可以自己写一个input plugin。如果像上面那样用通配符写file，如果有新日志文件拷进来，它会自动去扫描。

2. 定义数据的格式

根据打日志的格式，用正则表达式进行匹配

filter {

  #定义数据的格式
  grok {
    match => { "message" => "%{DATA:timestamp}\|%{IP:serverIp}\|%{IP:clientIp}\|%{DATA:logSource}\|%{DATA:userId}\|%{DATA:reqUrl}\|%{DATA:reqUri}\|%{DATA:refer}\|%{DATA:device}\|%{DATA:textDuring}\|%{DATA:duringTime:int}\|\|"}
  }

}

由于打日志的格式是这样的：

2015-05-07-16:03:04|10.4.29.158|120.131.74.116|WEB|11299073|http://quxue.renren.com/shareApp?isappinstalled=0&userId=11299073&from=groupmessage|/shareApp|null|Mozilla/5.0 (iPhone; CPU iPhone OS 8_2 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Mobile/12D508 MicroMessenger/6.1.5 NetType/WIFI|duringTime|98||

以|符号隔开，第一个是访问时间，timestamp，作为logstash的时间戳，接下来的依次为：服务端IP，客户端的IP，机器类型(WEB/APP/ADMIN)，用户的ID(没有用0表示)，请求的完整网址，请求的控制器路径，reference，设备的信息，duringTime，请求所花的时间。

如上面代码，依次定义字段，用一个正则表达式进行匹配，DATA是logstash定义好的正则，其实就是(.*?)，并且定义字段名。

我们将访问时间作为logstash的时间戳，有了这个，我们就可以以时间为区分，查看分析某段时间的请求是怎样的，如果没有匹配到这个时间的话，logstash将以当前时间作为该条记录的时间戳。需要再filter里面定义时间戳的格式，即打日志用的格式：

filter {

  #定义数据的格式
  grok {#同上... }

  #定义时间戳的格式
 date {
 match => [ "timestamp", "yyyy-MM-dd-HH:mm:ss" ]
 locale => "cn"
 }

}

在上面的字段里面需要跟logstash指出哪个是客户端IP，logstash会自动去抓取该IP的相关位置信息：

filter {

  #定义数据的格式
  grok {#同上}

  #定义时间戳的格式
  date {#同上}

  #定义客户端的IP是哪个字段（上面定义的数据格式）
 geoip {
 source => "clientIp"
 }
}

同样地还有客户端的UA，由于UA的格式比较多，logstash也会自动去分析，提取操作系统等相关信息

  #定义客户端设备是哪一个字段
  useragent {
    source => "device"
    target => "userDevice"
  }

哪些字段是整型的，也需要告诉logstash，为了后面分析时可进行排序，使用的数据里面只有一个时间

  #需要进行转换的字段，这里是将访问的时间转成int，再传给Elasticsearch
  mutate {
    convert => ["duringTime", "integer"]
  }

3. 输出配置

最后就是输出的配置，将过滤扣的数据输出到elasticsearch

output {
  #将输出保存到elasticsearch，如果没有匹配到时间就不保存，因为日志里的网址参数有些带有换行
  if [timestamp] =~ /^\d{4}-\d{2}-\d{2}/ {
        elasticsearch { host => localhost }
  }

   #输出到stdout
#  stdout { codec => rubydebug }

   #定义访问数据的用户名和密码
#  user => webService
#  password => 1q2w3e4r
}

我们将上述配置，保存到logstash.conf，然后运行logstash

在logstash启动完成之后，输入上面的那条访问记录，logstash将输出过滤后的数据：

可以看到logstash，自动去查询IP的归属地，并将请求里面的device字段进行分析。

二、配置Elasticsearch和kibana

1. Elasticsearch

这个不需要怎么配，使用默认的配置即可。配置是: config/elasticsearch.yml

如果需要设置数据的过期时间，可以加上这两行（目测是这样配的，没有验证过，读者可以试一下）：

#设置为30天过期

indices.cache.filter.expire: 30d

index.cache.filter: 30d

Elasticsearch默认监听在9200端口，可对其进行查询和管理，例如看索引的健康状态：

curl 'localhost:9200/_cluster/health?level=indices&pretty'

输出

{
  "cluster_name" : "elasticsearch",
  "status" : "yellow",
  "timed_out" : false,
  "number_of_nodes" : 2,
  "number_of_data_nodes" : 1,
  "active_primary_shards" : 161,
  "active_shards" : 161,
  "relocating_shards" : 0,
  "initializing_shards" : 0,
  "unassigned_shards" : 161,
  "number_of_pending_tasks" : 0,
  "indices" : {
    "logstash-2015.05.05" : {
      "status" : "yellow", #有三级，green, yellow和red
      "number_of_shards" : 5,
      "number_of_replicas" : 1,
      "active_primary_shards" : 5,
      "active_shards" : 5,
      "relocating_shards" : 0,
      "initializing_shards" : 0,
      "unassigned_shards" : 5
    }
}

可在浏览器进行访问，例如查询一下使用chrome浏览器情况：

2. kibana

这个也不用配置，默认监听在5601端口。

#让它运行在后台
localhost# nohup bin/kibana &

注意以上两个要使用Java 7以上版本，还有小版本要求，下一个最新的Java 8即可，然后在启动脚本里export JAVA_HOME;

三、可视化数据分析

访问5601端口，如localhost:5601，打开kibana

1. 生成索引名称

第一次访问kibana会重定向到设置索引的页面：

在蓝色方框里输入要进行探索的索引，如果输入logstash-*就是匹配所有的索引，还可以指定日期，logstash的索引是按日期区分的，一个日期一个文件夹

因此也可以输入logstash-2015.05*，那么如果用这个索引名称，在接下来的操作都是针对5月份的记录。也可以再一个六月份的，在接下来的过程中在网页左上角索引那里随时进行切换。

2. 按天查看上月份的访问量

点左上角的discover

再点右上角的时钟，选时间

有三种格式的时间可以选择，我们选择上一个月，就可以看到上月份的访问情况：

3. 按地域访问情况

点击上面菜单栏的visualize，选择最后一个条形图，再选择from a new search

在左边的窗口里选择X-Axis，然后，Aggregation选择Date Histogram，Interval选择Daily，以天为单位

再点击上图的绿色箭头，右边出来日访问量：

接着点击左边的Add Sub-buckets，选择split bars，然后Sub Aggression选择Terms，相应的Field选择city_name，如下图：

点绿色的播放按钮，右边出来按照每天最高访问量的5个城市：

然后把它保存到Dashboard里，等会还要进行比较，点击右上角的save按钮，再起个名字

点击上面菜单栏的Dashboard，将刚刚保存的加进去。

接下来我们看一下，这几个城市的人分别访问的哪些接口比较多，可能可以看出不同地域的人对什么感兴趣

4. 查看不同城市的人访问接口的异同

点击Visulize（点两次），选择倒数第三个的饼图，接下来的操作类型于上面，按回车：

可以看出五月份的访问量，北京最多，然后就是长沙、天津、河北。

接着，Add sub-buckets，如下配置

可以看出，北京访问的接口从高到低今次是getdataversion、getthomeinfo、getactivitys等。然后继续保存到Dashboard。

再看下访问比较活跃的是哪几个IP

5. 查看访问量最高的几个IP

继续点visualize，选择data table，相应的配置类似于上面，返回一个前20个最活跃的IP的表格：

保存到面板

然后再看下5月份，总的访问量

6. 总点击量

在visualize那里选择metric，总的访问量为：

还可以看下在地图上的分布

7. 地图分布

在visualize选择Title map

可以看出访问量主要集中在北京一带。

同样保存到面板，现在在面板保存了5张图：

8. Dashboard的相关联操作

Dashboard的一个强大之处是可以进行关联查看。例如说要看一下最活跃的IP，是什么时候访问的，访问了哪些接口。

只需要在上图左下角的clientIP点一下相应的IP即可，面板里的其它各图都会相应地变化。

9. 搜索

kibana每个页面都有一个搜索的输入框，进行的任何可视化都可以通过搜索动态地改变.

kibana的搜索使用Luence语法，常用的可能就以下几个

（1）字段名:值

点击上面菜单的Discover，在搜索那里输入: clientIp:123.125.40.1，就可以调出这个IP，该段时间内所进行的所有访问，然后再进行后续其它的各种操作。

例如再看下他使用什么设备访问，在左边侧栏点击userDevice.os_name，再点Visualize

可以看出他使用的是ios系统比较多：

（2）To 范围

字段是Number型的支持范围搜索，例如看下响应时间在1000ms以上的。搜索duringTime:[1000 TO 1000000000]

看下是哪些接口，设置y轴为平均响应时间，就可以看出哪些接口的调用比较耗时：

（3）支持and or ()的组合，这里不再说明。

这里只是根据自已的日志进行一个分析，读者可根据自己的数据内容做相关的挖掘

参考：

1. https://www.elastic.co/ logstash官网

推荐阅读

utf-8
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
split
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42
controller
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
main
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
sum
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
sum
DB2 9 认证指南（733 测验）第二部分：数据处理

本文介绍 DB2 中的基本概念，重点解释事务单元（UOW）和事务的概念。事务单元是指作为单个原子操作执行的一个或多个 SQL 查询。 ... [详细]

蜡笔小新 2024-11-14 16:58:15
utf-8
python模块之正则

re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求，从一段字符串中找到符合要求的内容。在 ... [详细]

蜡笔小新 2024-11-14 15:52:38
utf-8
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
utf-8
EST：西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...

点击蓝字关注我们编译：祝新宇校稿：鞠峰、袁凌论文ID原名：PathogenicandIndigenousDenitrifyingBacte ... [详细]

蜡笔小新 2024-11-13 21:09:41
utf-8
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
utf-8
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
sum
2018年湘潭大学程序设计竞赛在牛客网的时间数据分析报告

本报告对2018年湘潭大学程序设计竞赛在牛客网上的时间数据进行了详细分析。通过统计参赛者在各个时间段的活跃情况，揭示了比赛期间的编程频率和时间分布特点。此外，报告还探讨了选手在准备过程中面临的挑战，如保持编程手感、学习逆向工程和PWN技术，以及熟悉Linux环境等。这些发现为未来的竞赛组织和培训提供了 valuable 的参考。 ... [详细]

蜡笔小新 2024-11-11 16:10:24
node.js
利用 JavaScript 和 Node.js 验证时间的有效性

本文探讨了如何使用 JavaScript 和 Node.js 验证时间的有效性。通过编写一个 `isTime` 函数，我们可以确保输入的时间格式正确且有效。该函数利用正则表达式匹配时间字符串，检查其是否符合常见的日期时间格式，如 `YYYY-MM-DD` 或 `HH:MM:SS`。此外，我们还介绍了如何处理不同时间格式的转换和验证，以提高代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 11:27:29
config
如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析

如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析 ... [详细]

蜡笔小新 2024-11-11 10:08:55
config
Python ATM与购物车项目实战：深入解析三层架构设计

本文详细解析了Python ATM与购物车项目的三层架构设计，重点介绍了MVC（Model-View-Controller）模式的应用。在用户界面层，系统通过图形化界面与用户进行交互，接收并处理用户的输入数据，随后将这些数据传递给控制层进行进一步处理。该层不仅负责展示信息，还承担了用户请求的初步处理任务。 ... [详细]

蜡笔小新 2024-11-10 12:45:22

手机用户2602880641

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章