当前位置: 开发笔记 > 编程语言 > 正文

Elasticsearch数据建模是什么？

作者：蒋军利 | 来源：互联网 | 2023-09-23 09:40

1、数据建模是什么数据模型是描述现实世界某种现象或者状态的物理抽象，比如我们之前用FSA

1、数据建模是什么
数据模型是描述现实世界某种现象或者状态的物理抽象，比如我们之前用`FSA`
来描述`罗老师的一天`
这种现象，就是把现实世界抽象成某种模型。现实世界有很多重要的关联关系：博客帖子有一些评论，银行账户有多次交易记录，客户有多个银行账户，订单有多个订单明细，文件目录有多个文件和子目录。
关系型数据库关联关系：
•每个实体（或行，在关系世界中）可以被`主键`
唯一标识。•实体`规范化`
（范式）。唯一实体的数据只存储一次，而相关实体只存储它的主键。只能在一个具体位置修改这个实体的数据。•实体可以进行关联查询，可以跨实体搜索。•单个实体的变化是`原子性`
，`一致性`
，`隔离性`
，和`持久性`
。•大多数关系数据库支持跨多个实体的 ACID 事务。
但是关系型数据库有其局限性，包括对全文检索有限的支持能力。实体关联查询时间消耗是很昂贵的，关联的越多，消耗就越昂贵。特别是跨服务器进行实体关联时成本极其昂贵，基本不可用。但单个的服务器上又存在数据量的限制。
Elasticsearch ，和大多数 NoSQL 数据库类似，是扁平化的。索引是独立文档的集合体。文档是否匹配搜索请求取决于它是否包含所有的所需信息。
Elasticsearch 中单个文档的数据变更是 ACIDic 的，而涉及多个文档的事务则不是。当一个事务部分失败时，无法回滚索引数据到前一个状态。
扁平化有以下优势：
•索引过程是快速和无锁的。•搜索过程是快速和无锁的。•因为每个文档相互都是独立的，大规模数据可以在多个节点上进行分布。
但关联关系仍然非常重要。某些时候，我们需要缩小扁平化和现实世界关系模型的差异。以下四种常用的方法，用来在 Elasticsearch 中进行关系型数据的管理：
•Application-side joins•Data denormalization•Nested objects•Parent/child relationships
数据模型是描述某些现象或者逻辑的物理抽象，在Java开发中常见的一种领域模型的概念：POJO

2、对象和实体
对象和实体的关系就是现实世界和数据模型的映射，我们在做Java开发的时候经常用到的POJO的领域模型就是这种关系：
分层领域模型规约：
•DO（ Data Object）：与数据库表结构一一对应，通过DAO层向上传输数据源对象。•DTO（ Data Transfer Object）：数据传输对象，Service或Manager向外传输的对象。•BO（ Business Object）：业务对象。由Service层输出的封装业务逻辑的对象。•AO（ Application Object）：应用对象。在Web层与Service层之间抽象的复用对象模型，极为贴近展示层，复用度不高。•VO（ View Object）：显示层对象，通常是Web向模板渲染引擎层传输的对象。•POJO（ Plain Ordinary Java Object）：在本手册中， POJO专指只有setter/getter/toString的简单类，包括DO/DTO/BO/VO等。•Query：数据查询对象，各层接收上层的查询请求。注意超过2个参数的查询封装，禁止使用Map类来传输。
领域模型命名规约：
•数据对象：xxxDO，xxx即为数据表名。•数据传输对象：xxxDTO，xxx为业务领域相关的名称。•展示对象：xxxVO，xxx一般为网页名称。•POJO是DO/DTO/BO/VO的统称，禁止命名成xxxPOJO。

3、数据建模的过程
•概念：需求 => 抽象。即把实际的用户需求抽象为某种数据模型，比如我们在存储`倒排表`
的时候，就是把”储存倒排表“这个需求抽象成`FST`
的这种抽象的数据模型。•逻辑：抽象 => 具体。仍然以”存储倒排表“为例，FST模型构建完成之后，我们需要把其抽象变成具体的代码和对象，把实现变为肉眼可见的东西。•物理：具体 => 落地。同上，当我们有了逻辑之后，就可以通过具体的对象、属性变成实实在在的数据文件，保存在你的磁盘里。

4、建模意义
我个人总结如下，但其实不仅限于以下几点：
•开发：简化开发流程，从而提高效率•产品：提升数据的存储效率，提升查询性能•管理：前期准备充分，降低后期出现问题的可能性•成本：综合各个因素，降低整体的运营和管理成本

5、数据建模的包含的内容
关联关系处理（index relations）：
数据模型的关联：我们通过在我们的应用程序中实现联接可以（部分）模拟关系数据库。应用层联接的主要优点是可以对数据进行标准化处理。只能在 `user`
文档中修改用户的名称。缺点是，为了在搜索时联接文档，必须运行额外的查询
非规范化数据：使用 Elasticsearch 得到最好的搜索性能的方法是有目的的通过在索引时进行非规范化 denormalizing。对每个文档保持一定数量的冗余副本可以在需要访问时避免进行关联
稀疏字段：避免稀疏字段文档，如以下情况应尽量避免：
并发问题：全局锁、文档锁、树锁（独占锁、共享锁）、乐观锁、悲观锁
Object类型：通俗点就是通过字段冗余，以一张大宽表来实现粗粒度的index，这样可以充分发挥扁平化的优势。但是这是以牺牲索引性能及灵活度为代价的。使用的前提：冗余的字段应该是很少改变的；比较适合与一对少量关系的处理。当业务数据库并非采用非规范化设计时，这时要将数据同步到作为二级索引库的ES中，就很难使用上述增量同步方案，必须进行定制化开发，基于特定业务进行应用开发来处理join关联和实体拼接
嵌套对象：索引性能和查询性能二者不可兼得，必须进行取舍。嵌套文档将实体关系嵌套组合在单文档内部（类似于json的一对多层级结构），这种方式牺牲索引性能（文档内任一属性变化都需要重新索引该文档）来换取查询性能，可以同时返回关系实体，比较适合于一对少量的关系处理。当使用嵌套文档时，使用通用的查询方式是无法访问到的，必须使用合适的查询方式（nested query、nested filter、nested facet等），很多场景下，使用嵌套文档的复杂度在于索引阶段对关联关系的组织拼装
父子级关系：父子文档牺牲了一定的查询性能来换取索引性能，适用于一对多的关系处理。其通过两种type的文档来表示父子实体，父子文档的索引是独立的。父-子文档ID映射存储在 Doc Values 中。当映射完全在内存中时， Doc Values 提供对映射的快速处理能力，另一方面当映射非常大时，可以通过溢出到磁盘提供足够的扩展能力。在查询parent-child替代方案时，发现了一种filter-terms的语法，要求某一字段里有关联实体的ID列表。基本的原理是在terms的时候，对于多项取值，如果在另外的index或者type里已知主键id的情况下，某一字段有这些值，可以直接嵌套查询。具体可参考官方文档的示例：通过用户里的粉丝关系，微博和用户的关系，来查询某个用户的粉丝发表的微博列表。
扩展性：
•分片分配感知•索引模板•索引生命周期•冷热架构•分片管理和规划•滚动索引和别名•跨集群搜索

6、Object、Nested、Join

6.1 嵌套类型：Nested

nested属于object类型的一种，是Elasticsearch中用于复杂类型对象数组的索引操作。Elasticsearch没有内部对象的概念，因此，ES在存储复杂类型的时候会把对象的复杂层次结果扁平化为一个键值对列表。

比如：

PUT my-index-000001/_doc/1
{
"group" : "fans",
"user" : [
{
"first" : "John",
"last" : "Smith"
},
{
"first" : "Alice",
"last" : "White"
}
]
}

上面的文档被创建之后，user数组中的每个json对象会以下面的形式存储

{
"group" : "fans",
"user.first" : [ "alice", "john" ],
"user.last" : [ "smith", "white" ]
}

user.first
和user.last
字段被扁平化为多值字段，first
和last
之间的关联丢失。

使用nested为复杂类型创建mapping：

PUT
{
"mappings": {
"properties": {
"": {
"type": "nested"
}
}
}
}

查询：

GET /_search
{
"query": {
"nested": {
"path": "",
"query": {
...
}
}
}
}

Optins:

•path：nested对象的查询深度•score_mode：评分计算方式•avg （默认）：使用所有匹配的子对象的平均相关性得分。•max：使用所有匹配的子对象中的最高相关性得分。•min：使用所有匹配的子对象中最低的相关性得分。•none：不要使用匹配的子对象的相关性分数。该查询为父文档分配得分为0。•sum：将所有匹配的子对象的相关性得分相加。

6.2 父子级关系：Join

连接数据类型是一个特殊字段，它在同一索引的文档中创建父/子关系。关系部分在文档中定义了一组可能的关系，每个关系是一个父名和一个子名。父/子关系可以定义如下

PUT
{
"mappings": {
"properties": {
"": {
"type": "join",
"relations": {
"": ""
}
}
}
}
}

使用场景

join
类型不能像关系数据库中的表链接那样去用，不论是has_child
或者是has_parent
查询都会对索引的查询性能有严重的负面影响。并且会触发global ordinals

join
唯一合适应用场景是：当索引数据包含一对多的关系，并且其中一个实体的数量远远超过另一个的时候。比如：老师
有一万个学生

注意

•在索引父子级关系数据的时候必须传入routing参数，即指定把数据存入哪个分片，因为父文档和子文档必须在同一个分片上，因此，在获取、删除或更新子文档时需要提供相同的路由值。•每个索引只允许有一个join
类型的字段映射•一个元素可以有多个子元素但只有一个父元素•可以向现有连接字段添加新关系•也可以向现有元素添加子元素，但前提是该元素已经是父元素

觉得内容还不错的话，给我点个“在看”呗

▲ 已培养近百位 Elastic认证工程师还不关注下？

点击蓝字关注我们

推荐阅读

js
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
js
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
js
深入解析 org.apache.xmlbeans.SchemaType.getBaseEnumType() 方法及其应用

本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法，提供了多个代码示例，并解释了其在不同场景下的使用方法。 ... [详细]

蜡笔小新 2024-12-26 11:46:55
js
ElasticSearch 集群监控与优化

本文详细介绍了如何有效地监控 ElasticSearch 集群，涵盖了关键性能指标、集群健康状况、统计信息以及内存和垃圾回收的监控方法。 ... [详细]

蜡笔小新 2024-12-21 13:43:04
js
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
function
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
runtime
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
runtime
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
runtime
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
web
libsodium 1.0.15 发布：引入重大不兼容更新

最新发布的 libsodium 1.0.15 版本带来了若干不兼容的变更，其中包括默认密码散列算法的更改和其他重要调整。 ... [详细]

蜡笔小新 2024-12-26 11:03:58
web
Java项目分层架构设计与实践

本文探讨了Java项目中应用分层的最佳实践，不仅介绍了常见的三层架构（Controller、Service、DAO），还深入分析了各层的职责划分及优化建议。通过合理的分层设计，可以提高代码的可维护性、扩展性和团队协作效率。 ... [详细]

蜡笔小新 2024-12-22 12:14:24
web
docker镜像重启_docker怎么启动镜像

docker镜像重启_docker怎么启动镜像dock ... [详细]

蜡笔小新 2024-12-20 16:34:52
settings
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
settings
字节跳动夏季招聘面试经验分享

本文详细记录了字节跳动夏季招聘的面试经历，涵盖了一、二、三轮面试的技术问题及项目讨论，旨在为准备类似面试的求职者提供参考。 ... [详细]

蜡笔小新 2024-12-18 09:31:48
settings
收割机|篇幅_国内最牛逼的笔记，不接受反驳！！

收割机|篇幅_国内最牛逼的笔记，不接受反驳！！ ... [详细]

蜡笔小新 2024-12-14 10:20:42

蒋军利

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章