grok官方文档

作者：45仰望易_332 | 来源：互联网 | 2023-10-11 16:12

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http:blog.csdn.netjiangjunshow也欢迎大家转载本篇文章。分

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

<pre name="code" class="html">grok:解析任意文本并构造它:Grok 是当前最好的方式在logstash 解析蹩脚的非结构化日志数据到一些结构化的可查询的。这个工具是完美的对于syslog logs, apache和其他webserver logs,mysqllogs,在一般情况下,任何日志格式通常对于人是友好的而不是对于电脑Logstash 有120种模式默认,你可以找到它们在:https://github.com/logstash-plugins/logstash-patterns-core/tree/master/patterns. Grok Basics:Grok 通过结合文本模式来匹配你的日志语法对于一个grok 是 %{SYNTAX:SEMANTIC}语法是模式的名字会匹配你的文本,比如,3.44 会通过NUMBER 模式匹配和55.3.244.1 通过IP模式匹配。语法是你如何匹配:SEMANTIC （语义）是标识你给到一块文本被匹配。比如,3.44 可能是一个一个事件的持续事件,因此你可以简单的调用它。此外, 一个字符串 55.3.244.1 可能识别客户端发出的请求。在上述例子中,你的grok filter 可以看起来像这样:%{NUMBER:duration} %{IP:client}你可以添加一个数据类型转换成你的grok 模式。默认的所有的语义都保存作为字符串.如果你希望转换一个语义的数据类型,比如改变一个字符串为一个整型然后将其后缀为目标数据类型。比如 %{NUMBER:num:int} 会转换num语义从一个字符串到一个整型,当前只支持转换是int和float例子: 这个质疑的语法和语义,我们可以把有用的字段从一个简单的日志像这个虚构的http 请求日志:55.3.244.1 GET /index.html 15824 0.043匹配模式:%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}{ "client": [ "55.3.244.1" ], "method": [ "GET" ], "request": [ "/index.html" ], "bytes": [ "15824" ], "duration": [ "0.043" ]}正则表达式:Grok 坐在正则表达式之上,因此很多的正则表达式也是正确的在grok里。正则表达式库是Oniguruma，你可以看到完整的支持的正则表达式的语言在Oniguruma 网站自定义模式:有时候logstash没有你需要的模式,你有几个选项:第一,你可以使用Oniguruma 语法用于命名捕获让你匹配一个文件的片段,保存作为字段(?<field_name>the pattern here)/********55.3.244.1 GET /index.html 15824 0.043(?<field_name>\S+)输出:{ "field_name": [ "55.3.244.1" ]}(?<field_name>\S+\s+)输出:多了个空格{ "field_name": [ "55.3.244.1 " ]}(?<field_name>\S+\s+\S+)输出:{ "field_name": [ "55.3.244.1 GET" ]}例如, 后缀日志有一个队列id 是10或者11 个16进制字符,你可以捕获像这样:(?<queue_id>[0-9A-F]{10,11})d4111111112表达式:(?<queue_id>[0-9A-F]{10,11})输出:{ "queue_id": [ "4111111112" ]}或者,你也可以创建一个自定义模式的文件:创建一个目录叫做patterns 里面有个文件叫做extra(文件名不重要,但是名字得对你有意义)在这个文件中,写pattern 你需要的作为pattern名字,一个空格,然后正则用于哪个模式例如: 后缀队列id例子:# contents of ./patterns/postfix:POSTFIX_QUEUEID [0-9A-F]{10,11}Jan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>filter { grok { patterns_dir => ["./patterns"] match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" } }}上面的会被匹配,结果是下面的字段:timestamp: Jan 1 06:25:43logsource: mailserver14program: postfix/cleanuppid: 21403queue_id: BEF25A72965syslog_message: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>timestamp, logsource, program, 和pid 来自SYSLOGBASE 模式本身定义了一些模式/*******************zjtest7-frontend:/usr/local/logstash-2.3.4/config# pwd/usr/local/logstash-2.3.4/configzjtest7-frontend:/usr/local/logstash-2.3.4/config# ls -lr patterns/total 4-rw-r--r-- 1 root root 32 Aug 30 13:33 postfixzjtest7-frontend:/usr/local/logstash-2.3.4/config/patterns# cat postfix POSTFIX_QUEUEID [0-9A-F]{10,11}zjtest7-frontend:/usr/local/logstash-2.3.4/config# cat stdin.conf input { stdin { }} filter { grok { patterns_dir => ["./patterns"] match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" } }}output { stdout { codec=>rubydebug{} } }zjtest7-frontend:/usr/local/logstash-2.3.4/config# ../bin/logstash -f stdin.conf Settings: Default pipeline workers: 1Pipeline main startedJan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>{ "message" => "Jan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>", "@version" => "1", "@timestamp" => "2016-08-30T05:34:11.849Z", "host" => "0.0.0.0", "timestamp" => "Jan 1 06:25:43", "logsource" => "mailserver14", "program" => "postfix/cleanup", "pid" => "21403", "queue_id" => "BEF25A72965", "syslog_message" => "message-id=<20130101142543.5828399CCAF@mailserver14.example.com>"}简介:插件支持下面的配置选项:需要的配置选项:grok { }细节:add_field1.值类型是hash2. 默认值是{}如果 filter 是成功的,增加任何属性字段到这个事件，Field名字可以动态的和包含event部分使用%{field}.filter { grok { add_field => { "foo_%{somefield}" => "Hello world, from %{host}" } patterns_dir => ["./patterns"] match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" } }}输出；zjtest7-frontend:/usr/local/logstash-2.3.4/config# ../bin/logstash -f stdin.conf Settings: Default pipeline workers: 1Pipeline main startedJan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>{ "message" => "Jan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>", "@version" => "1", "@timestamp" => "2016-08-30T05:44:35.071Z", "host" => "0.0.0.0", "timestamp" => "Jan 1 06:25:43", "logsource" => "mailserver14", "program" => "postfix/cleanup", "pid" => "21403", "queue_id" => "BEF25A72965", "syslog_message" => "message-id=<20130101142543.5828399CCAF@mailserver14.example.com>", "foo_%{somefield}" => "Hello world, from 0.0.0.0"}##你可以一次增加多个字段:filter { grok { add_field => { "foo_%{somefield}" => "Hello world, from %{host}" "new_field" => "new_static_value" } patterns_dir => ["./patterns"] match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" } }}输出；zjtest7-frontend:/usr/local/logstash-2.3.4/config# ../bin/logstash -f stdin.conf Settings: Default pipeline workers: 1Pipeline main startedJan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>{ "message" => "Jan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>", "@version" => "1", "@timestamp" => "2016-08-30T05:46:37.029Z", "host" => "0.0.0.0", "timestamp" => "Jan 1 06:25:43", "logsource" => "mailserver14", "program" => "postfix/cleanup", "pid" => "21403", "queue_id" => "BEF25A72965", "syslog_message" => "message-id=<20130101142543.5828399CCAF@mailserver14.example.com>", "foo_%{somefield}" => "Hello world, from 0.0.0.0", "new_field" => "new_static_value"add_tag1.值类型是array2.默认是[]如果filter 成功,增加任意的tags 到这个事件。Tags 可以动态的包含事件的部分使用%{field} syntax.filter { grok { add_tag => [ "foo_%{somefield}" ] }}# You can also add multiple tags at once:filter { grok { add_tag => [ "foo_%{somefield}", "taggedy_tag"] }}zjtest7-frontend:/usr/local/logstash-2.3.4/config# ../bin/logstash -f stdin.conf Settings: Default pipeline workers: 1Pipeline main startedJan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>{ "message" => "Jan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>", "@version" => "1", "@timestamp" => "2016-08-30T05:50:18.451Z", "host" => "0.0.0.0", "timestamp" => "Jan 1 06:25:43", "logsource" => "mailserver14", "program" => "postfix/cleanup", "pid" => "21403", "queue_id" => "BEF25A72965", "syslog_message" => "message-id=<20130101142543.5828399CCAF@mailserver14.example.com>", "foo_%{somefield}" => "Hello world, from 0.0.0.0", "new_field" => "new_static_value", "tags" => [ [0] "foo_%{somefield}" ]}break_on_match1.值类型是波尔型2.默认值是trueBreak 在第一个匹配,第一次成功匹配通过grok 会导致filter 被完成。如果你需要grok 尝试所有的patterns(可能解析不同的东西),设置这个为falsematch:1.值类型是hash2.默认是{}filter { grok { match => { "message" => "Duration: %{NUMBER:duration}" } }}

给我老师的人工智能教程打call！http://blog.csdn.net/jiangjunshow

推荐阅读

io
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54
php
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
version
深入解析 Java 中 org.w3c.dom.Node.isEqualNode() 方法及其应用实例

本文详细介绍了 Java 中 org.w3c.dom.Node 类的 isEqualNode() 方法的功能、参数及返回值，并通过多个实际代码示例来展示其具体应用。此方法用于检测两个节点是否相等，而不仅仅是判断它们是否为同一个对象。 ... [详细]

蜡笔小新 2024-11-19 18:11:10
version
解决Tomcat启动时出现org.apache.catalina.LifecycleException异常的方法

在尝试启动Java应用服务器Tomcat时，遇到了org.apache.catalina.LifecycleException异常。本文详细记录了异常的具体表现形式，并提供了有效的解决方案。 ... [详细]

蜡笔小新 2024-11-19 11:46:52
io
Kubernetes 1.9.0 Alpha.1 发布公告 [Kubernetes 最新动态]

近日，Kubernetes 社区发布了两个新版本：1.8.0 RC.1 和 1.9.0 Alpha.1。这是 k8s 1.9.0 的首次发布，自 v1.8.0 Alpha.3 以来进行了大量更新，共提交了 279 次。 ... [详细]

蜡笔小新 2024-11-17 19:22:13
php
PHP 基础与数据库操作

本文介绍了 PHP 的基本概念、服务器与客户端的工作原理，以及 PHP 如何与数据库交互。同时，还涵盖了常见的数据库操作和安全性问题。 ... [详细]

蜡笔小新 2024-11-17 15:45:08
io
CentOS下ProFTPD的安装与配置指南

本文详细介绍在CentOS操作系统上安装和配置ProFTPD服务的方法，包括基本配置、安全设置及高级功能的启用。 ... [详细]

蜡笔小新 2024-11-21 09:45:56
php
Windows环境下Apache频繁崩溃的解决方案

本文探讨了在Windows系统中运行Apache服务器时频繁出现崩溃的问题，并提供了多种可能的解决方案和建议。错误日志显示多个子进程因达到最大请求限制而退出。 ... [详细]

蜡笔小新 2024-11-20 13:07:27
install
Git配置及常用命令详解

本文介绍了如何在不同操作系统上安装Git，以及一些基本和高级的Git操作，包括项目初始化、文件状态检查、版本控制、分支管理、标签处理、版本回退等，并简要提及了开源许可协议的选择。 ... [详细]

蜡笔小新 2024-11-19 19:52:34
io
探讨设计模式在VFP中的应用

本文旨在探讨设计模式在Visual FoxPro (VFP) 中的应用可能性。虽然VFP作为一种支持面向对象编程(xbase语言)的工具，其OO特性相对简明，缺乏高级语言如Java、C++等提供的复杂特性，但设计模式作为一种通用的解决方案框架，是否能有效应用于VFP，值得深入研究。 ... [详细]

蜡笔小新 2024-11-19 14:01:24
version
JUC并发编程——线程的基本方法使用

目录一、线程名称设置和获取二、线程的sleep()三、线程的interrupt四、join()五、yield()六、wait(),notify(),notifyAll( ... [详细]

蜡笔小新 2024-11-18 20:33:30
io
mysql 授权!!

为什么80%的码农都做不了架构师？MySQL的权限系统围绕着两个概念：认证-确定用户是否允许连接数据库服务器授权-确定用户是否拥有足够的权限执 ... [详细]

蜡笔小新 2024-11-18 17:34:42
io
构建高可用性Apache集群的Heartbeat使用指南

本文详细介绍了如何使用Heartbeat构建一个高可用性的Apache集群，包括安装、配置和测试步骤。 ... [详细]

蜡笔小新 2024-11-18 13:54:04
io
对象存储与块存储、文件存储等对比

看到一篇文档，讲对象存储，好奇，搜索文章，摘抄,学习记录！背景：传统存储在面对海量非结构化数据时，在存储、分享与容灾上面临很大的挑战，主要表现在以下几个方面：传统存储并非为非结 ... [详细]

蜡笔小新 2024-11-17 18:21:23
io
Centos7 Tomcat9 安装笔记

centos7,tom ... [详细]

蜡笔小新 2024-11-17 18:15:16

45仰望易_332

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章