当前位置: 开发笔记 > 编程语言 > 正文

Lucene的doc_values如何实现？

作者：蜡笔小昕廖廖 | 来源：互联网 | 2023-05-29 09:13

如何解决《Lucene的doc_values如何实现？》经验，为你挑选了1个好方法。

我看到了“ doc_values”的ES文档http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/doc-values.html说

“文档值是在索引时而不是搜索时生成的”，那么如果使用doc_values将生成什么？

“ doc值是预先构建的，并且初始化速度要快得多”，为什么它要快得多？

“但是没有使用堆内存”，那么使用页面缓存吗？

有人可以向我解释doc_values的实现方式以及何时使用吗？我定期用jstat检查我的堆使用情况，我发现我还有足够的空间使用。

1> jpountz..：

“文档值是在索引时而不是搜索时生成的”，那么如果使用doc_values将生成什么？

我们需要在数据之上使用柱状视图查看两种类型的工作负载：排序和聚合。在当前版本的Elasticsearch中，有两种情况：

该字段仅被索引。在这种情况下，如果您开始在给定的字段上进行排序/汇总，数据将被懒惰地反转，并在搜索时放入缓存中，以便您可以访问给定文档ID的值。这意味着诸如

foo -> 0, 1 bar -> 1

将转换为以下数据结构

0 -> foo 1 -> foo, bar

该字段已启用doc值。在这种情况下，数据将在索引时间以列格式存储。搜索时您需要做的所有事情就是加载有关您的字段及其编码方式的一些微小的元数据。然后，将直接从磁盘读取数据（依靠文件系统缓存来提高性能）。

“ doc值是预先构建的，并且初始化速度要快得多”，为什么它要快得多？

我提到的这种反转换过程实际上是占用大量CPU和I / O的资源。结果放入缓存中，但是首次访问仍然很慢，这会损害大型合并后立即运行的所有查询的延迟。您可以通过急于加载字段数据来解决此问题，但是即使它可以改善响应时间，也可以将问题转移到其他地方，并且对索引的更改将需要更长的时间才能看到，因为elasticsearch将在新点之前等待字段数据被加载索引上的即时视图可供搜索。

另一方面，使用doc值，您只需要从磁盘读取一些微小的元数据就可以了。

“但是没有使用堆内存”，那么使用页面缓存吗？

究竟！Doc值需要很少的堆内存，主要是有关字段字段以及事物如何在磁盘上编码的元数据。其余的直接从磁盘读取，并依靠文件系统缓存来提高性能。

有人可以向我解释doc_values的实现方式以及何时使用吗？我定期用jstat检查我的堆使用情况，我发现我还有足够的空间使用。

这有点复杂，因为有不同的情况……例如：

取决于字段的类型（数字还是字符串）

字段是单值还是多值

领域的基数

某些数据模式...例如，在对数字字段进行编码时，我们检查公共除数，以便在所有值共享公共除数的情况下进行更有效的压缩。如果您以秒或天为单位对时间戳进行编码，通常会发生这种情况，因为所有值都是1000的倍数。

但是实际上，要知道的重要一点是，它基本上是一个按顺序读取的非常大的mmap文件，因此即使基于磁盘，它仍然对您的I / O系统友好。

如果您对此感兴趣，可以阅读更多有关它的内容。

关于何时应该使用doc值，我认为您应该在计划进行排序或汇总的所有字段上启用doc值。在下一个Elasticsearch主版本中，有一个关于默认启用doc值的正在进行的讨论。

推荐阅读

import
vue使用

关键词： ... [详细]

蜡笔小新 2023-12-14 19:14:56
ip
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
js
Windows下配置PHP5.6的方法及注意事项

本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项，包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法，如下载缺失的msvcr110.dll文件等。通过本文的指导，读者可以轻松地在Windows系统下配置PHP5.6，并解决一些常见的配置问题。 ... [详细]

蜡笔小新 2023-12-14 12:37:25
js
Mac OS 升级到11.2.2 Eclipse打不开了，报错Failed to create the Java Virtual Machine

本文介绍了在Mac OS升级到11.2.2版本后，使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 12:01:13
js
Linux进程控制块PCBtask_struct结构体结构及作用详解

本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用，包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]

蜡笔小新 2023-12-13 21:31:18
js
关于smarty自定义缓存名解决思路

本文介绍了关于smarty自定义缓存名的解决思路，通过放弃生成缓存，直接生成html的静态页面来提高速度。同时提供了一个参考链接供参考。 ... [详细]

蜡笔小新 2023-12-12 14:42:01
python
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
python
Vagrant虚拟化工具的安装和使用教程

本文介绍了Vagrant虚拟化工具的安装和使用教程。首先介绍了安装virtualBox和Vagrant的步骤。然后详细说明了Vagrant的安装和使用方法，包括如何检查安装是否成功。最后介绍了下载虚拟机镜像的步骤，以及Vagrant镜像网站的相关信息。 ... [详细]

蜡笔小新 2023-12-11 14:24:00
ip
OkHttp3的基本使用及其特性

本文介绍了OkHttp3的基本使用和特性，包括支持HTTP/2、连接池、GZIP压缩、缓存等功能。同时还提到了OkHttp3的适用平台和源码阅读计划。文章还介绍了OkHttp3的请求/响应API的设计和使用方式，包括阻塞式的同步请求和带回调的异步请求。 ... [详细]

蜡笔小新 2023-12-10 22:46:04
solr
部署solr建立nutch索引

2019独角兽企业重金招聘Python工程师标准接着上篇nutch1.4的部署应用，我们来部署一下solr，solr是对lucene进行了封装的企 ... [详细]

蜡笔小新 2023-10-16 18:06:09
heap
EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析

本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程，并分析了其所需的资源容量。通过解决错误提示和调整内存大小，成功存储了波形数据。然后，讨论了储存环逐束团信号的意义，以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大，每天需要近250G，一年需要90T。然而，储存环逐束团信号具有重要意义，可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]

蜡笔小新 2023-12-14 17:43:56
ip
Nginx使用（server参数配置）

本文介绍了Nginx的使用，重点讲解了server参数配置，包括端口号、主机名、根目录等内容。同时，还介绍了Nginx的反向代理功能。 ... [详细]

蜡笔小新 2023-12-14 17:08:34
go
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
go
海马s5近光灯能否直接更换为H7？

本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡，并提供了完整的教程下载地址。此外，还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]

蜡笔小新 2023-12-12 11:39:00
solr
camel_使用Camel在来自不同来源的Solr中索引数据

camelApacheSolr是建立在Lucene之上的“流行的，快速的开源企业搜索平台”。为了进行搜索(并查找结果)，通常需要从不同的源(例如内容管理 ... [详细]

蜡笔小新 2023-10-15 11:20:39

蜡笔小昕廖廖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章