unity3d引擎缓存优化技术_解密云HBase时序引擎OpenTSDB优化技术

作者：圆季 | 来源：互联网 | 2023-08-25 19:39

逝者如斯夫，不舍昼夜。——孔子时间如流水，一去不复返。自古不乏对时间流逝的感慨，而现代已经有很多技术记录流逝的过去。我们可以拍照ÿ

逝者如斯夫&＃xff0c;不舍昼夜。
—— 孔子

时间如流水&＃xff0c;一去不复返。自古不乏对时间流逝的感慨&＃xff0c;而现代已经有很多技术记录流逝的过去。我们可以拍照&＃xff0c;可以录像&＃xff0c;当然还可以用时序数据库&＃xff01;

时序数据库是专门存放随着时间推移而不断变化的数据。近些年&＃xff0c;随着IoT等概念的流行&＃xff0c;时序数据库成为数据库一个相对独立的领域逐渐受到重视&＃xff0c;广泛应用于物联网、监控系统、金融、医疗和零售等多种场景。

过去12个月时序数据库(Time Series DBMS)热度不断增长
那么云上的用户如何构建一个存储海量数据的时序数据库呢&＃xff1f;笔者这里推荐使用 云HBase &＃43; OpenTSDB 方案。云HBase是使用阿里多年优化过的HBase内核版本&＃xff0c;本文不作过多介绍&＃xff0c;详情请看产品主页。

OpenTSDB简介

OpenTSDB是一款基于HBase构建的时序数据库&＃xff0c;它的数据存储完全交给HBase&＃xff0c;本身没有任何数据存储。所有节点是对等的&＃xff0c;所以部署起来其实是非常方便的。因为基于HBase&＃xff0c;所以本身就具备了横向扩展&＃xff0c;存储海量数据的能力。常见的部署模式有2种&＃xff0c;一种分离部署&＃xff0c;一种混合部署。

独立部署&＃xff0c;即与多个业务共享一个HBase。适合时序业务较小&＃xff0c;或者用不满HBase资源。

混合部署&＃xff0c;即TSDB进程和RS在一个VM内。适合时序业务较重&＃xff0c;需要独享HBase。

上述2种模式&＃xff0c;云HBase产品都能提供支持&＃xff0c;云HBase购买页面现已增加时序引擎购买入口。

OpenTSDB数据定义

一条时间线由 Metirc &＃43; 多个tag 唯一确定&＃xff0c;时间线上会有源源不断的数据点(Data Point)写入&＃xff0c;数据点由时间戳和值组成。OpenTSDB支持秒级(10位整数)&＃xff0c;毫秒级别(13位整数)两种时间精度。

举个例子&＃xff0c;比如我们监控一个手环收集的心跳信息&＃xff0c;那么我们可以这样定义&＃xff1a;

Metric: "band.heartbeat"Tags: "id" # 只定义一个tag&＃xff0c;就是手环的ID

那么我们通过 band.heartbeat &＃43; id&＃61;1 就能查询到编为1的手环收集到的心跳信息。

OpenTSDB数据存储格式

数据表整体设计

这个设计有几个特点&＃xff1a;

1.metric和tag映射成UID&＃xff0c;不存储实际字符串&＃xff0c;以节约空间。
2.每条时间线每小时的数据点归在一行&＃xff0c;每列是一个数据点&＃xff0c;这样每列只需要记录与这行起始时间偏移&＃xff0c;以节省空间。
3.每列就是一个KeyValue&＃xff0c;如果是毫秒精度&＃xff0c;一行最多可以有3600000个KV&＃xff0c;这里其实会有些问题&＃xff0c;后面会讲到。

RowKey格式

salt&＃xff1a;打散同一metric不同时间线的热点
metric, tagK, tagV&＃xff1a;实际存储的是字符串对应的UID(在tsdb-uid表中)
timestamp&＃xff1a;每小时数据存在一行&＃xff0c;记录的是每小时整点秒级时间戳

metric和tag

它们长度默认是3个字节&＃xff0c;即最多只能分配 2^24&＃61;16777216 个UID。可以通过这些参数调整&＃xff1a;

tsd.storage.uid.width.metric # metric UID长度&＃xff0c;默认3tsd.storage.uid.width.tagk # tagK UID长度&＃xff0c;默认3tsd.storage.uid.width.tagv # tagV UID长度默认3# 这3者的UID分配分别是独立的空间

注意&＃xff1a;
集群已经写过数据后就无法修改&＃xff0c;所以最好是一开始就确定好&＃xff0c;建议4个字节。因为使用压缩技术后&＃xff0c;RowKey多占的几个字节可以忽略&＃xff0c;下文会提到。

salt

salt这个东西最好根据自己HBase集群规模去配置&＃xff0c;它有2个配置&＃xff1a;

tsd.storage.salt.width # 默认1&＃xff0c;1基本够了&＃xff0c;不用调整tsd.storage.salt.buckets # 打散到几个bucket去&＃xff0c;默认20

查询的时候会并发 tsd.storage.salt.buckets 个Scanner到HBase上&＃xff0c;所以如果这个配置太大&＃xff0c;对查询影响比较大&＃xff0c;容易打爆HBase。这里其实是一个权衡&＃xff0c;写入热点和查询压力。默认20其实我个人觉得有点多&＃xff0c;配置3&＃xff5e;8就差不多了&＃xff0c;当然实际效果还和metric设计有关&＃xff0c;如果在一个metric里设计了很多时间线&＃xff0c;那就得配置很多bucket。在一个metric中设计过多时间线&＃xff0c;会影响OpenTSDB的查询效率&＃xff0c;所以不建议这么做。
这个参数也是设置了就不能改的&＃xff0c;所以也是要一开始规划好。

Column格式

这是列名(HBase中称为qualifier)的格式&＃xff0c;可以看到毫米级需要多出2个字节。所以如果你的采集间隔不需要精确到毫秒级别&＃xff0c;那请一定使用秒级(10位整数)。Value只能存储整数和浮点&＃xff0c;所以有一个bit存储Float flag。

这里大家一定会有疑问&＃xff0c;直接通过qualifier长度是4还是2不就能判断是秒级精度的数据点&＃xff0c;还是毫秒了么&＃xff1f;为何还需要MS flag这样一个标记信息&＃xff1f;阅读下面的“压缩”部分&＃xff0c;就能知道为什么。

OpenTSDB压缩问题

OpenTSDB有个很常见并且很麻烦的问题&＃xff0c;就是整点时候对HBase对流量冲击。下面2张图是我们一个测试集群只做写入对效果&＃xff1a;

OpenTSDB HBase

可以看到会有一个数倍流量的爆发&＃xff0c;要持续很久才能消化。这意味着我们需要更高规格去抗这个峰值。首先我们要明白OpenTSDB为啥要做压缩&＃xff1f;在压缩些什么东西&＃xff1f;
前面提到过OpenTSDB一行一小时的特点&＃xff0c;那么一行里会有很多KV。表面上看起来好像没什么问题&＃xff0c;但是实际上对比逻辑视图和物理视图你会发现一些问题。

很明显&＃xff0c;每个KV都记录了rowX&＃xff0c;那rowX就是一个空间浪费。这个空间不仅影响成本&＃xff0c;还影响查询效率(毕竟数据多了)。压缩做的事情就是把多个小KV合成1个大KV&＃xff0c;减少这部分浪费。所以压缩的时候会涉及到对HBase的“读-写-删”&＃xff0c;这就是整点HBase IO流量的来源。
那么我们有没有办法&＃xff0c;既做压缩&＃xff0c;同时又消除这部分HBase IO呢&＃xff1f;
当然有&＃xff01;我们可以把压缩的逻辑放到HBase内部去。因为HBase本身就需要对HFile做合并工作&＃xff0c;这时候HBase本身就会读写数据文件&＃xff0c;这部分对HDFS的IO不会少&＃xff0c;而我们通过hook在HBase读出数据后&＃xff0c;替换掉要写入的数据(即压缩好的数据)。

实现上面这个功能&＃xff0c;当然需要一定内核开发量。好消息是通过云HBase购买页面购买的时序引擎&＃xff0c;已经自带了上述功能。不管是分离部署模式&＃xff0c;还是混合部署模式。
这个功能的好处显而易见&＃xff0c;消除峰值节省成本&＃xff0c;提升集群稳定性。这样我们对一个现有的HBase集群空闲资源需求就不是那么高了&＃xff0c;完全可以复用了。下面是使用此功能后&＃xff0c;同样只做写入的测试集群的流量情况&＃xff1a;

作者&＃xff1a;郭泽晖

本文为云栖社区原创内容&＃xff0c;未经允许不得转载。

推荐阅读

storage
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
blob
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
blob
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
go
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
go
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
php
在Linux系统中避免安装MySQL的简易指南

在Linux系统中避免安装MySQL的简易指南 ... [详细]

蜡笔小新 2024-11-11 13:22:28
default
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
default
《Linux高性能服务器编程》深入解析：3.2 TCP报头结构与功能

在《Linux高性能服务器编程》一书中，第3.2节深入探讨了TCP报头的结构与功能。TCP报头是每个TCP数据段中不可或缺的部分，它不仅包含了源端口和目的端口的信息，还负责管理TCP连接的状态和控制。本节内容详尽地解析了TCP报头的各项字段及其作用，为读者提供了深入理解TCP协议的基础。 ... [详细]

蜡笔小新 2024-11-10 14:18:44
js
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
default
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
go
Sia (Siacoin/SC/云储币) 去中心化存储平台资源汇总

本文整理了关于Sia去中心化存储平台的重要网址和资源，旨在为研究者和用户提供全面的信息支持。 ... [详细]

蜡笔小新 2024-11-15 13:29:59
go
Docker 环境下 MySQL 双主同步配置指南

本文介绍了如何在 Docker 环境中配置 MySQL 的双主同步，包括目录结构的创建、配置文件的编写、容器的创建与设置以及最终的验证步骤。 ... [详细]

蜡笔小新 2024-11-14 17:21:23
php
C++ 中的 malloc 函数详解

malloc 是 C 语言中的一个标准库函数，全称为 memory allocation，即动态内存分配。它用于在程序运行时申请一块指定大小的连续内存区域，并返回该区域的起始地址。当无法预先确定内存的具体位置时，可以通过 malloc 动态分配内存。 ... [详细]

蜡笔小新 2024-11-14 13:38:03
foreach
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
php
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23

圆季

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章