ElasticSearchGrokProcessor（Grok处理器）

作者：Owi妓l_972 | 来源：互联网 | 2023-07-14 00:26

原文链接:https://www.elastic.co/guide/en/elasticsearch/reference/5.3/grok-processor.html译文链接

原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/5.3/grok-processor.html

译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10027802

贡献者 : [那伊抹微笑]，[ApacheCN]，[Apache中文网]

从 document（文档）中的单个 textfiled（文本字段）提取 structuredfields（结构化字段）。您可以选择从哪个字段来提取所匹配的字段，以及您想要匹配的 **grok **pattern。grok pattern 就像正则表达式，并且支持可以重用的 aliasedexpressions（别名表达式）。

此工具非常适用于 sysloglogs，apache 和其它的 webserverlogs，mysqllogs，以及一般情况下，用于人类而不是计算机使用的任何的 logformat（日志格式）。该 processor（处理器）包含超过 120 种可重用的 patterns。

如果您需要工具来帮助 buildingpatterns（构建模式）以匹配 log（日志），您将会发现 http://grokdebug.herokuapp.com 和 http://grokconstructor.appspot.com/ 应用程序是相当有用的。

Grok Basics（Grok 基础）

Grok 以 regularexpressions（正则表达式）为基础，所以在 Grok 中的任何正则表达式也是有效的。正则表达式库是 Oniguruma。您可以在 Onigiruma 网站上查看所支持的完整的 r****egexp syntax（正在表达式语法）。

Grok 通过利用这种正则表达式语言来工作，允许命名现有的 pattern（模式），并将它们组合成与您的字段相匹配的更复杂的 pattern（模式）。

对于重用 grok pattern（grok 模式）的语法有三种形式 : %{SYNTAX:SEMANTIC}，%{SYNTAX}，**%{SYNTAX:SEMANTIC:TYPE}**。

该 SYNTAX（语法）是将要匹配您的文本的 pattern（模式）的名称。例如，3.44 将会被 NUMBER 模式匹配并且 55.3.244.1 将会被 IP 模式匹配。该语法是告诉你如何匹配的。**NUMBER** 和 **IP** 都是在 default patterns set（默认模式集）中提供的 pattern（模式）。

该 SEMANTIC（语义）是您给一段被匹配的文本的标识符。例如，3.44 可以是事件的持续时间，所以你可以简单的称之为 duration。此外，字符串 55.3.244.1 可能会标识 client 发出的请求。

该 TYPE（类型）是您希望转换您命名的 field（字段）的 type（类型）。int 和 float 是目前唯一所支持的强制类型。

例如，您可能想要去匹配以下文本 :

3.44 55.3.244.1

您可能知道该示例中的消息是一个 number（数字），后跟一个 IP address（IP 地址）。您可以通过使用下列的 **Grok **expression（Grok 表达式）来匹配这个文本。

%{NUMBER:duration} %{IP:client}

Using the Grok Processor in a Pipeline（在管道中使用 Grok 表达式）

Table 20. Grok Options（表 20. Grok 选项）

Name（名称）	Required（必要的）	Default（默认值）	Description（描述）
`field`	yes	-	The field to use for grok expression parsing
`patterns`	yes	-	An ordered list of grok expression to match and extract named captures with. Returns on the first expression in the list that matches.
`pattern_definitions`	no	-	A map of pattern-name and pattern tuples defining custom patterns to be used by the current processor. Patterns matching existing names will override the pre-existing definition.
`trace_match`	no	false	when true, `_ingest._grok_match_index` will be inserted into your matched document’s metadata with the index into the pattern found in `patterns` that matched.
`ignore_missing`	no	false	If `true` and `field` does not exist or is `null`, the processor quietly exits without modifying the document

以下是使用提供的 pattern（模式）从 document（文档）中的 stringfield（字符串字段）中提取和命名结构化字段的示例。

{ "message": "55.3.244.1 GET /index.html 15824 0.043" }

这个 pattern（模式）可以是 :

%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}

以下是一个使用 Grok 处理上述 document（文档）的示例 pipeline（管道）:

{ "description" : "...", "processors": [ { "grok": { "field": "message", "patterns": ["%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}"] } } ] }

此 pipeline（管道）将这些 named captures（命名捕获）作为文档中的新字段插入，如下所示 :

{ "message": "55.3.244.1 GET /index.html 15824 0.043", "client": "55.3.244.1", "method": "GET", "request": "/index.html", "bytes": 15824, "duration": "0.043" }

Custom Patterns and Pattern Files（自定义模式和模式文件）

该 Grokprocessor 采用基本的 pattern（模式）进行预包装。这些 pattern（模式）可能并不总是有你想要的。Pattern 有一个非常基本的格式。每个 entry 描述有一个 name（名称）和 pattern（模式）本身。

您也可以在 pattern_definitions 选项下添加您自己的 pattern（模式）到 processordefinition（处理器定义）中。

以下是一个指定自定义 patterndefinitions（模式定义）的 pipeline（管道）:

{ "description" : "...", "processors": [ { "grok": { "field": "message", "patterns": ["my %{FAVORITE_DOG:dog} is colored %{RGB:color}"] "pattern_definitions" : { "FAVORITE_DOG" : "beagle", "RGB" : "RED|GREEN|BLUE" } } } ] }

Providing Multiple Match Patterns（提供多个匹配模式）

有时一种 pattern（模式）不足以捕捉一个 field（字段）的潜在结构。假设我们要匹配包含您最喜欢的猫或狗宠物品种的所有 message（消息）。实现这一点的一个方法是提供两个不同的 pattern（模式），而不是一个真正复杂的表达式所捕获相同的 **or** 行为。

以下是针对 simulateAPI（模拟 API）执行的这种配置的示例 :

curl -XPOST 'localhost:9200/_ingest/pipeline/_simulate?pretty' -H 'Content-Type: application/json' -d' { "pipeline": { "description" : "parse multiple patterns", "processors": [ { "grok": { "field": "message", "patterns": ["%{FAVORITE_DOG:pet}", "%{FAVORITE_CAT:pet}"], "pattern_definitions" : { "FAVORITE_DOG" : "beagle", "FAVORITE_CAT" : "burmese" } } } ] }, "docs":[ { "_source": { "message": "I love burmese cats!" } } ] } '

响应如下 :

{ "docs": [ { "doc": { "_type": "_type", "_index": "_index", "_id": "_id", "_source": { "message": "I love burmese cats!", "pet": "burmese" }, "_ingest": { "timestamp": "2016-11-08T19:43:03.850+0000" } } } ] }

两种 pattern（模式）都将使用适当的匹配来设置该字段 pet。但是如果要跟踪是哪以个模式匹配并且填充了字段，该怎么办呢？我们可以通过使用 **trace_match**参数来做到这一点。

以下是一个一样 pipeline（管道）的输出，但是使用的是 "trace_match": **true **的配置 :

{ "docs": [ { "doc": { "_type": "_type", "_index": "_index", "_id": "_id", "_source": { "message": "I love burmese cats!", "pet": "burmese" }, "_ingest": { "_grok_match_index": "1", "timestamp": "2016-11-08T19:43:03.850+0000" } } } ] }

在上述响应中，您可以看到匹配的 pattern（模式）的 index（索引）为 "**1**"。这就是说，它是在 patterns 中用于匹配的第二个（索引从零开始）模式。

这些所跟踪的元数据可以调试哪些 patterns（模式）被匹配到了。这些信息存储在 ingestmetadata（元数据）中，并且不会被索引。

推荐阅读

text
.NET Core 托管服务优化与实践

在.NET Core应用中，托管服务的形式主要分为进程内托管（InProcess）和进程外托管（OutOfProcess）。这两种托管方式各有优缺点，本文将深入探讨它们的特点，并结合实际案例，介绍如何根据具体需求选择合适的托管模式，以实现性能优化和资源利用的最大化。此外，文章还将分享一些实用的配置技巧和最佳实践，帮助开发者提升应用的稳定性和可维护性。 ... [详细]

蜡笔小新 2024-11-11 12:23:53
cookie
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
utf-8
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
join
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
copy
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
version
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
version
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
version
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
version
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
range
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
range
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
version
基于Web的Kafka管理工具Kafkamanager首次访问Web界面的详细配置指南（附图解）

首次访问Kafkamanager Web界面时，需要对Kafka集群进行配置。这一过程相对简单，用户只需依次点击【Cluster】>【Add Cluster】，按照提示完成相关设置即可。本文将通过图文并茂的方式，详细介绍每一步的配置步骤，帮助用户快速上手Kafkamanager。 ... [详细]

蜡笔小新 2024-11-11 20:43:22
version
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
version
XAMPP 遇到 404 错误：无法找到请求的对象

在使用 XAMPP 时遇到 404 错误，表示请求的对象未找到。通过详细分析发现，该问题可能由以下原因引起：1. `httpd-vhosts.conf` 文件中的配置路径错误；2. `public` 目录下缺少 `.htaccess` 文件。建议检查并修正这些配置，以确保服务器能够正确识别和访问所需的文件路径。 ... [详细]

蜡笔小新 2024-11-11 18:20:00
nodejs
利用 Node.js 和 Express（4.x 及以上版本）构建高效文件上传功能

本文介绍了如何使用 Node.js 和 Express（4.x 及以上版本）构建高效的文件上传功能。通过引入 `multer` 中间件，可以轻松实现文件上传。首先，需要通过 `npm install multer` 安装该中间件。接着，在 Express 应用中配置 `multer`，以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置，帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]

蜡笔小新 2024-11-11 18:02:17

Owi妓l_972

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章