揭秘华为云GaussDB(forInflux)：最佳实践之数据建模

作者：月满西楼2502890155 | 来源：互联网 | 2023-09-01 09:08

揭,秘,华,为,云,gaussdb,for,influx,最佳,

摘要：本期将从GaussDB(for Influx)数据模型谈起，分享GaussDB(for Influx)数据建模的最佳方法，避免一些使用过程中的常见问题。

本文分享自华为云社区《华为云GaussDB(for Influx)揭秘第七期：最佳实践之数据建模》，作者： GaussDB 数据库。

华为云GaussDB(for Influx)时序数据库面向工业物联网海量时序数据场景提供数据安全、高性能、低存储成本、免运维等能力，受到越来越多企业的关注；同时，即开即用、使用简单、类SQL查询语句、无需设计schema、适合业务快速迭代等特点，也越来越得到开发者的认可。

但是随着业务规模不断增加，也会遇到诸如时间线暴涨、查询时延高、Tag和Field同名导致查询数据时有时无等问题，其根本原因是，在使用过程中没有良好的数据模型设计。本期将从GaussDB(for Influx)数据模型谈起，分享GaussDB(for Influx)数据建模的最佳方法，避免一些使用过程中的常见问题。

01 数据模型与关键概念

Database

与MySQL中Database概念相同。

创建命令：CREATE DATABASE “mydb”。

用户权限、数据保留策略都以Database为粒度设置。比如赋予用户对“mydb”数据库只读权限：GRANT read ON mydb TO username。

Measurement

与MySQL中Table概念类似。所不同的是，GaussDB(for Influx)属于Schemaless，Measurement不需要提前创建，也不需要设计表中的字段和类型。写入数据时自动创建Measurement，字段可以任意新增和减少，但要求相同字段的数据类型必须一致。

Retention Policy（RP）

数据保留策略，是关系型数据库中不存在的概念，专为时序场景设计，意为指定数据在数据库中的最长保存时间，过期数据会自动被清理。

Tag

数据源标识，只支持string类型

Field

采集指标，支持string，float，int，bool类型

Line Protocol（数据模型）

如图所示，写数据到GaussDB(for Influx)，单条数据由measurement、Tag_key、Tag_value、Field_key、Field_value、timestamp 6部分组成。可以1个或多个，可以1个或多个，每条数据必须要携带时间戳。

Point（点）

Point通常包含measurement+Tags+Field+timestamp 4个部分。例如，如下数据包含2个Point。

 Point1：  Point2：

即，一条数据包含多少Field Key，则可以简单认为存在多少Point。在GaussDB(for Influx)中，可以一条数据包含一个Point，也可以包含多个Point。

Series（时间线）

在GaussDB(for Influx)里，我们将一个指标+一组Tag组合称为一条时间线。在一条时间线下面，连续时间点的采样数据则为时序数据。比如有数据：

monitorInfo，area=”葡萄花”，device=”钻机A”，pressure=1.8，1650443961100400200 monitorInfo，area=”葡萄花”，device=”钻机B”，pressure=1.6，1650443961100400200 monitorInfo，area=”榆树林”，device=”钻机B”，pressure=1.7，1650443961100400200 monitorInfo，area=”榆树林”，device=”钻机A”，pressure=1.5，1650443961100400200

表示4条时间线，分别是：

葡萄花油田的钻机A上的压力传感器(pressure)

葡萄花油田的钻机B上的压力传感器(pressure)

榆树林油田的钻机B上的压力传感器(pressure)

榆树林油田的钻机A上的压力传感器(pressure)

02 数据建模之最佳实践

通常，数据建模是为了让查询更简单、更高效。对于大多数使用情形，我们建议使用以下设计准则：

1、合理设计Tag 和Field

Tag只支持字符串类型，数值和布尔类型数据应该被设计为Field；
将常用查询条件和分组条件设计为Tag；

因为Tag会创建索引，而Field则没有索引。比如在业务中，经常会查询某一台机器的平均CPU利用率：

SELECT mean(cpu) FROM monitor WHERE host=“192.168.1.1” AND time > now() – 1h

或者查询风电场每台风力发电机每小时的平均发电量：

SELECT mean(elect) FROM monitor WHERE farm_id=“737f738a-bd63” AND time > now() – 24h GROUP BY time(1h)，device_id

则应该将上述查询语句中的 host、farm_id、device_id 设置为Tag，前提是字符串类型才能被设为Tag。

time属于内置关键字，不能作为Tag_key和Field_key；
使用InfluxQL函数（Max、Min、Count等）的字段，作为Field存储。

2、遵守Tag_Key 和Field_Key的命名约定

不使用保留关键字作为Tag和Field的key（名称）；
Tag和Field不使用相同名称，否则会出现不可预料的问题；
Tag和Field名称尽量简短清晰，可以节约Index内存空间，同时会让查询更加高效；
避免一个Tag中包含多层意思，比如machine = “192.168.2.1-Ubuntu”，包含ip地址和操作系统名称，建议拆分为两个Tag：host和os；
建议将变化小的数据设置为Tag，比如进程名称可以设为Tag，而进程号则建议设置为Field。

3、避免超过节点规格所能承受的时间线数量

GaussDB(for Influx)规格与时间线数量对应关系如下：

时间线过度超过限制，会引起性能急剧下降，可能会影响业务运行，需要考虑对节点扩容。

4、避免一张表中存在过多Tag或者 Field

建议一张表存放同一类业务数据，比如物流车辆监测数据。过多业务数据放置到同一张表，会造成Tag和Field数量激增，直接影响查询效率。Field太多时，每个Field的计算都会单独计算，当执行模糊查询时可能会导致查询超时。

5、避免同一个Retention policy存储多用户数据

不同业务数据的过期时间不尽相同，应根据业务具体需求分别存储在不同的RP中，否则过期数据不能及时删除，依然占据存储空间，增加了数据存储成本，影响了查询效率。

6、避免同一个Database存储多用户数据

由于当前GaussDB(for Influx)的权限控制粒度是DB级别，同一个Database保存多用户数据，容易导致数据被其他用户访问和修改。建议不同用户使用单独Database，并且只对单一用户授予访问权限。

03 总结

在制造、能源、农业、电力等工业物联网行业中，大部分数字化信息系统是构建在MySQL等关系型数据库基础上。但随着企业业务和规模的进一步扩大，数据量迅速增长，MySQL等关系型数据库面临并发数、存储成本、查询性能、扩展性、维护等诸多问题，正逐渐被时序数据库所替代。

GaussDB(for Influx)摒弃关系型数据库范式化繁复的设计规则，支持Schemaless设计，业务能按照简单、高效的方式建模。面对业务变化快、接入设备多样化严重的工业物联网场景，GaussDB(for Influx)数据建模表现更加灵活，无需更改业务即可兼容不同设备，更适用于工业物联网场景。

04 结束

本文作者：华为云数据库创新Lab & 华为云时空数据库团队。欢迎加入我们！
云数据库创新Lab（成都、北京）简历投递邮箱：xiangyu9@huawei.com
华为云时空数据库团队（西安、深圳）简历投递邮箱：yujiandong@huawei.com

点击关注，第一时间了解华为云新鲜技术~

推荐阅读

search
Java集合框架的使用方法与性能对比分析

本文详细探讨了Java集合框架的使用方法及其性能特点。首先，通过关系图展示了集合接口之间的层次结构，如`Collection`接口作为对象集合的基础，其下分为`List`、`Set`和`Queue`等子接口。其中，`List`接口支持按插入顺序保存元素且允许重复，而`Set`接口则确保元素唯一性。此外，文章还深入分析了不同集合类在实际应用中的性能表现，为开发者选择合适的集合类型提供了参考依据。 ... [详细]

蜡笔小新 2024-11-01 09:51:38
search
从无到有，构建个人专属的操作系统解决方案

操作系统（OS）被誉为程序员的三大浪漫之一，常被比喻为计算机的灵魂、大脑、内核和基石，其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案，涵盖从需求分析到系统设计、开发与测试的全过程，帮助读者深入理解操作系统的本质与实现方法。 ... [详细]

蜡笔小新 2024-10-31 18:17:13
future
Java理论基础题库精编_必备|Java核心知识点练习题库

本题库精选了Java核心知识点的练习题，旨在帮助学习者巩固和检验对Java理论基础的掌握。其中，选择题部分涵盖了访问控制权限等关键概念，例如，Java语言中仅允许子类或同一包内的类访问的访问权限为protected。此外，题库还包括其他重要知识点，如异常处理、多线程、集合框架等，全面覆盖Java编程的核心内容。 ... [详细]

蜡笔小新 2024-10-31 16:12:02
md5
Spring事务管理与自定义多线程开发中的潜在风险分析

在Spring与Ibatis集成的环境中，通过Spring AOP配置事务管理至服务层。当在一个服务方法中引入自定义多线程时，发现事务管理功能失效。若不使用多线程，事务管理则能正常工作。本文深入分析了这一现象背后的潜在风险，并探讨了可能的解决方案，以确保事务一致性和线程安全。 ... [详细]

蜡笔小新 2024-10-31 15:26:13
md5
数据库性能优化与管理策略深度解析

本文深入探讨了数据库性能优化与管理策略，通过实例分析和理论研究，详细阐述了如何有效提升数据库系统的响应速度和处理能力。文章首先介绍了数据库性能优化的基本原则和常用技术，包括索引优化、查询优化和存储管理等。接着，结合实际应用场景，讨论了如何利用容器化技术（如Docker）来部署和管理数据库，以提高系统的可扩展性和稳定性。最后，文章还提供了具体的配置示例和最佳实践，帮助读者在实际工作中更好地应用这些策略。 ... [详细]

蜡笔小新 2024-10-31 11:16:59
python
Django框架下的对象关系映射（ORM）详解

在Django框架中，对象关系映射（ORM）技术是解决面向对象编程与关系型数据库之间不兼容问题的关键工具。通过将数据库表结构映射到Python类，ORM使得开发者能够以面向对象的方式操作数据库，从而简化了数据访问和管理的复杂性。这种技术不仅提高了代码的可读性和可维护性，还增强了应用程序的灵活性和扩展性。 ... [详细]

蜡笔小新 2024-10-30 15:30:10
schema
MySQL：不仅仅是数据库那么简单

MySQL不仅是一款高效、可靠的数据库管理系统，它还具备丰富的功能和扩展性，支持多种存储引擎，适用于各种应用场景。从简单的网站开发到复杂的企业级应用，MySQL都能提供强大的数据管理和优化能力，满足不同用户的需求。其开源特性也促进了社区的活跃发展，为技术进步提供了持续动力。 ... [详细]

蜡笔小新 2024-10-30 14:11:13
schema
深入解析 Spring Cloud Eureka 的高级应用场景与优化策略

本文深入探讨了Spring Cloud Eureka在企业级应用中的高级使用场景及优化策略。首先，介绍了Eureka的安全配置，确保服务注册与发现过程的安全性。接着，分析了Eureka的健康检查机制，提高系统的稳定性和可靠性。随后，详细讨论了Eureka的各项参数调优技巧，以提升性能和响应速度。最后，阐述了如何实现Eureka的高可用性部署，保障服务的连续性和可用性。通过这些内容，开发者可以更好地理解和运用Eureka，提升微服务架构的整体效能。 ... [详细]

蜡笔小新 2024-10-30 13:07:16
md5
深入解析：RKHunter与AIDE在入侵检测中的应用与优势

本文深入探讨了RKHunter与AIDE在入侵检测领域的应用及其独特优势。通过对比分析，详细阐述了这两种工具在系统完整性验证、恶意软件检测及日志文件监控等方面的技术特点和实际效果，为安全管理人员提供了有效的防护策略建议。 ... [详细]

蜡笔小新 2024-10-30 11:50:20
schema
MySQL 数据操作：增、删、查、改全面解析

MySQL 数据操作：增、删、查、改全面解析 ... [详细]

蜡笔小新 2024-10-29 16:50:18
schema
如何解决Oracle数据库中的ORA-01578和ORA-26040错误

本文详细探讨了如何有效解决Oracle数据库中常见的ORA-01578和ORA-26040错误。这些错误通常与数据块损坏有关，严重影响数据库的稳定性和数据完整性。文章不仅提供了详细的故障诊断步骤，还介绍了多种修复方法，包括使用RMAN工具、手动修复数据块以及预防措施，以帮助数据库管理员高效应对这些问题。 ... [详细]

蜡笔小新 2024-10-29 11:14:07
tree
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
function
Linux系统下MySQL用户权限管理详解——第四阶段运维指南

在Linux系统中，MySQL的用户权限管理是运维人员必须掌握的关键技能之一。本文详细介绍了MySQL用户和权限管理的相关概念，包括MySQL用户的概念及其与VSFTPD虚拟用户的相似性，以及密码管理的重要性。此外，还深入探讨了如何通过命令行工具和配置文件进行用户权限的设置和调整，确保系统的安全性和稳定性。 ... [详细]

蜡笔小新 2024-10-28 13:41:46
schema
深入解析 C# 中 SqlCommand 与 SqlDataAdapter 的核心差异与应用场景

本文深入探讨了 C# 中 `SqlCommand` 和 `SqlDataAdapter` 的核心差异及其应用场景。`SqlCommand` 主要用于执行单一的 SQL 命令，并通过 `DataReader` 获取结果，具有较高的执行效率，但灵活性较低。相比之下，`SqlDataAdapter` 则适用于复杂的数据操作，通过 `DataSet` 提供了更多的数据处理功能，如数据填充、更新和批量操作，更适合需要频繁数据交互的场景。 ... [详细]

蜡笔小新 2024-10-28 12:25:41
python
为何Serverless将成为未来十年的主导技术领域？

为何Serverless将成为未来十年的主导技术领域？ ... [详细]

蜡笔小新 2024-10-28 09:23:05