GartnerAPM魔力象限技术解读——全量存储？No!按需存储？YES

作者：荣鼎投资_379 | 来源：互联网 | 2023-06-21 18:39

调用链记录了完整的请求状态及流转信息，是一座巨大的数据宝库。但是，其庞大的数据量带来的成本及性能问题是每个实际应用Tracing同学绕不开的难题。如何以

调用链记录了完整的请求状态及流转信息&＃xff0c;是一座巨大的数据宝库。但是&＃xff0c;其庞大的数据量带来的成本及性能问题是每个实际应用 Tracing 同学绕不开的难题。如何以最低的成本&＃xff0c;按需记录最有价值的链路及其关联数据&＃xff0c;是本文探讨的主要话题。 核心关键词是&＃xff1a;边缘计算 &＃43; 冷热数据分离。 如果你正面临全量存储调用链成本过高&＃xff0c;而采样后查不到数据或图表不准等问题&＃xff0c;请耐心读完本文&＃xff0c;相信会给你带来一些启发。

边缘计算&＃xff0c;记录更有价值的数据

边缘计算&＃xff0c;顾名思义就是在边缘节点进行数据计算&＃xff0c;赶时髦的话也可以称之为“计算左移”。在网络带宽受限&＃xff0c;传输开销与全局数据热点难以解决的背景下&＃xff0c; 边缘计算是寻求成本与价值平衡最优解的一种有效方法。

Tracing 领域最常用的边缘计算就是在用户进程内进行数据过滤和分析。而在公有云环境&＃xff0c;用户集群或专有网络内部的数据加工也属于边缘计算&＃xff0c;这样可以节省大量的公网传输开销&＃xff0c;并分散全局数据计算的压力。

此外&＃xff0c;从数据层面看&＃xff0c;边缘计算一方面可以筛选出更有价值的数据&＃xff0c;另一方面可以通过加工提炼数据的深层价值&＃xff0c;以最小的成本记录最有价值的数据。

筛选更有价值的数据

链路数据的价值分布是不均匀的。 据不完全统计&＃xff0c;调用链的实际查询率小于百万分之一。全量存储数据不仅会造成巨大的成本浪费&＃xff0c;也会显著影响整条数据链路的性能及稳定性。如下列举两种常见的筛选策略。

基于链路数据特征进行调用链采样上报&＃xff08;Tag-based Sampling&＃xff09;。 比如错/慢调用全采&＃xff0c;特定服务每秒前N次采样&＃xff0c;特定业务场景自定义采样等。下图展示了阿里云 ARMS 自定义采样配置页面&＃xff0c;用户可以根据自身需要自由定制存储策略&＃xff0c;实际存储成本通常小于原始数据的 5%。

异常场景下自动保留关联数据现场。 我们在诊断问题根因时&＃xff0c;除了调用链之外&＃xff0c;还需要结合日志、异常堆栈、本地方法耗时、内存快照等关联信息进行综合判断。如果每一次请求的关联信息全都记录下来&＃xff0c;大概率会造成系统的崩溃。因此&＃xff0c; 能否通过边缘计算自动保留异常场景下的快照现场是衡量 Tracing 产品优劣的重要标准之一。 如下图所示&＃xff0c;阿里云 ARMS 产品提供了慢调用线程剖析&＃xff0c;内存异常 HeapDump 等能力。

无论哪种筛选策略&＃xff0c;其核心思想都是 通过边缘节点的数据计算&＃xff0c;丢弃无用或低价值数据&＃xff0c;保留异常现场或满足特定条件的高价值数据。 这种基于数据价值的选择性上报策略性价比远高于全量数据上报&＃xff0c;未来可能会成为 Tracing 的主流趋势。

提炼数据价值

除了数据筛选&＃xff0c;在边缘节点进行数据加工&＃xff0c;比如预聚合和压缩&＃xff0c;同样可以在满足用户需求的前提下&＃xff0c;有效节省传输和存储成本。

预聚合统计&＃xff1a;在客户端进行预聚合的最大好处&＃xff0c; 就是在不损失数据精度的同时大幅减少数据上报量。 比如&＃xff0c;对调用链进行 1% 采样后&＃xff0c;仍然可以提供精准的服务概览/上下游等监控告警能力。
数据压缩&＃xff1a;对重复出现的长文本&＃xff08;如异常堆栈&＃xff0c;SQL 语句&＃xff09;进行压缩编码&＃xff0c;也可以有效降低网络开销。结合非关键字段模糊化处理效果更佳。

冷热数据分离&＃xff0c;低成本满足个性化的后聚合分析需求

边缘计算可以满足大部分预聚合分析场景&＃xff0c;但是无法满足多样化的后聚合分析需求&＃xff0c;比如某个业务需要统计耗时大于3秒的接口及来源分布&＃xff0c;这种个性化的后聚合分析规则是无法穷举的。而当我们无法预先定义分析规则时&＃xff0c;貌似就只能采用成本极高的全量原始数据存储。难道就没有优化的空间么&＃xff1f;答案是有的&＃xff0c;接下来我们就介绍一种低成本解决后聚合分析问题的方案——冷热数据分离。

冷热数据分离方案简述

冷热数据分离的价值基础在于用户的查询行为满足时间上的局部性原理。 简单理解就是&＃xff0c;最近的数据最常被查询&＃xff0c;冷数据查询概率较小。例如&＃xff0c;由于问题诊断的时效性&＃xff0c;50% 以上的链路查询分析发生在 30分钟内&＃xff0c;7天之后的链路查询通常集中在错慢调用链。理论基础成立&＃xff0c;接下来讨论如何实现冷热数据分离。

首先&＃xff0c;热数据存在时效性&＃xff0c;如果只需记录最近一段时间内的热数据&＃xff0c;对于存储空间的要求就会下降很多。另外&＃xff0c;在公有云环境下&＃xff0c;不同用户的数据天然具备隔离性。因此&＃xff0c;在用户 VPC 内部的热数据计算和存储方案就具备更优的性价比。

其次&＃xff0c;冷数据的查询具备指向性&＃xff0c;可以通过不同的采样策略筛选出满足诊断需求的冷数据进行持久化存储。例如错慢采样&＃xff0c;特定业务场景采样等。由于冷数据存储周期较长&＃xff0c;对稳定性要求较高&＃xff0c;可以考虑在 Region 内统一管理。

综上所述&＃xff0c;热数据存储周期短&＃xff0c;成本低&＃xff0c;但可以满足实时全量后聚合分析需求&＃xff1b;而冷数据经过精准采样后数据总量大幅下降&＃xff0c;通常只有原始数据量的 1% ~10%&＃xff0c;并可以满足大多数场景的诊断诉求。两相结合&＃xff0c;实现了成本与体验的平衡最优解。国内外领先的 APM 产品&＃xff0c;如 ARMS、Datadog、Lightstep 均采用了冷热数据分离的存储方案。

热数据实时全量分析

链路明细数据包含了最完整最丰富的的调用信息&＃xff0c;APM 领域最常用的服务面板、上下游依赖、应用拓扑等视图均是基于链路明细数据统计得出。基于链路明细数据的后聚合分析可以根据用户个性化需求更有效的定位问题。但是&＃xff0c;后聚合分析的最大挑战是要基于全量数据进行统计&＃xff0c;否则会出现样本倾斜导致最终结论离实际相差甚远。

阿里云 ARMS 作为 2021 年 Gartner APM 魔力象限中国唯一入选云厂商&＃xff0c;提供了 30分钟内热数据全量分析的能力&＃xff0c;可以实现各种条件组合下的过滤与聚合&＃xff0c;如下图所示&＃xff1a;

冷数据持久化采样分析

全量调用链的持久化存储成本非常高&＃xff0c;而前文提到 30分钟后调用链的实际查询率不足百万分之一&＃xff0c;并且大多数的查询集中在错慢调用链&＃xff0c;或满足特定业务特征的链路&＃xff0c;相信经常排查链路问题的同学会有同感。因此&＃xff0c;我们应该只保留少量满足精准采样规则的调用链&＃xff0c;从而极大的节省冷数据持久化存储成本。

那么精准采样应该如何实现呢&＃xff1f;业界常用的方法主要分为头部采样&＃xff08;Head-based Sampling&＃xff09;和尾部采样&＃xff08;Tail-based Sampling&＃xff09;两种。头部采样一般在客户端 Agent 等边缘节点进行&＃xff0c;例如根据接口服务进行限流采样或固定比例采样&＃xff1b;而尾部采样通常基于全量热数据进行过滤&＃xff0c;如错慢全采等。

最理想的采样策略应该只存储真正需要查询的数据&＃xff0c;APM 产品需要提供灵活的采样策略配置能力与最佳实践&＃xff0c;用户结合自身业务场景进行自适应的调整。

结语

当越来越多的企业和应用上云&＃xff0c;公有云集群规模爆发式增长&＃xff0c;“成本”将是企业用云的关键衡量因素。而在云原生时代&＃xff0c;充分利用边缘节点的计算和存储能力&＃xff0c;结合冷热数据分离实现高性价比的数据价值探索已经逐渐成为 APM 领域的主流。全量数据上报、存储、再分析这种传统方案将面临越来越大的挑战。未来会如何&＃xff0c;让我们拭目以待。

推荐产品

阿里云 ARMS —— 2021 年 Gartner APM 魔力象限中国唯一入选云厂商
Tracing Analysis —— 兼容 OpenTelemetry 规范&＃xff0c;支持 7 种开发语言

作者&＃xff1a;夏明&＃xff08;涯海&＃xff09;

原文链接

本文为阿里云原创内容&＃xff0c;未经允许不得转载。

推荐阅读

数据统计
MysqlDump_mysqldump全库备份相关知识详解

本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识，包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说，本文提供了一些有价值的参考内容。 ... [详细]

蜡笔小新 2023-12-14 10:03:27
text
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30
text
mysql-cluster集群sql节点高可用keepalived的故障处理过程

本文描述了mysql-cluster集群sql节点高可用keepalived的故障处理过程，包括故障发生时间、故障描述、故障分析等内容。根据keepalived的日志分析，发现bogus VRRP packet received on eth0 !!!等错误信息，进而导致vip地址失效，使得mysql-cluster的api无法访问。针对这个问题，本文提供了相应的解决方案。 ... [详细]

蜡笔小新 2023-12-12 19:20:50
heap
H5游戏性能优化，调试技巧

本文介绍了H5游戏性能优化和调试技巧，包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说，解决游戏性能问题是一个关键的任务，本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]

蜡笔小新 2023-12-10 15:40:37
heap
JVM：33 如何查看JVM的Full GC日志

1.示例代码packagecom.webcode;publicclassDemo4{publicstaticvoidmain(String[]args){byte[]arr ... [详细]

蜡笔小新 2023-10-17 19:51:59
heap
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
heap
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
testing
问题2：重新命名或者移动数据文件、日志文件到新的位置

本文讨论了在数据库打开和关闭状态下，重新命名或移动数据文件和日志文件的情况。针对性能和维护原因，需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况，以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]

蜡笔小新 2023-12-13 13:02:24
testing
Oracle 11g物理Active Data Guard实时查询（Realtime query）特性

在Oracle11g以前版本中的的DataGuard物理备用数据库，可以以只读的方式打开数据库，但此时MediaRecovery利用日志进行数据同步的过 ... [详细]

蜡笔小新 2023-12-11 15:49:10
testing
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
heap
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
heap
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08
controller
uboot硬件驱动

uboot与linux驱动1.uboot本身是裸机程序（1）在裸机中本来是没有驱动概念的（狭义的驱动概念是指在操作系统中用来具体操控硬 ... [详细]

蜡笔小新 2023-10-17 14:54:54
heap
生产环境下JVM调优参数的设置实例

正文前先来一波福利推荐：福利一：百万年薪架构师视频，该视频可以学到很多东西，是本人花钱买的VIP课程，学习消化了一年，为了支持一下女朋友公众号也方便大家学习，共享给大家。福利二 ... [详细]

蜡笔小新 2023-10-17 14:08:49
heap
Apple iPad：过渡设备还是平板电脑？

I’vebeenagonizingoverwhethertopostaniPadarticle.Applecertainlydon’tneedmorepublicityandthe ... [详细]

蜡笔小新 2023-10-16 20:17:56

荣鼎投资_379

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章