关于yum:Gartner-APM-魔力象限技术解读全量存储-No-按需存储YES

作者：360691894_8a5c48 | 来源：互联网 | 2023-10-09 22:50

调用链记录了残缺的申请状态及流转信息，是一座微小的数据宝库。然而，其宏大的数据量带来的老本及性能问题是每个理论利用Tracing同学绕不开的难题。如何以最低的老本，按需记录最有价值的链路及其关联数据，是本文探讨的次要话题。外围关键词是：边缘计算+冷热数据拆散。如果你正面临全量存储调用链老本过高，而

简介：在云原生时代，充分利用边缘节点的计算和存储能力，联合冷热数据拆散实现高性价比的数据价值摸索曾经逐步成为 APM 畛域的支流。

作者：夏明（涯海）

调用链记录了残缺的申请状态及流转信息，是一座微小的数据宝库。然而，其宏大的数据量带来的老本及性能问题是每个理论利用 Tracing 同学绕不开的难题。如何以最低的老本，按需记录最有价值的链路及其关联数据，是本文探讨的次要话题。外围关键词是：边缘计算 + 冷热数据拆散。如果你正面临全量存储调用链老本过高，而采样后查不到数据或图表不准等问题，请急躁读完本文，置信会给你带来一些启发。

边缘计算，记录更有价值的数据

边缘计算，顾名思义就是在边缘节点进行数据计算，赶时髦的话也能够称之为“计算左移”。在网络带宽受限，传输开销与全局数据热点难以解决的背景下，边缘计算是寻求老本与价值均衡最优解的一种无效办法。

Tracing 畛域最罕用的边缘计算就是在用户过程内进行数据过滤和剖析。而在私有云环境，用户集群或专有网络外部的数据加工也属于边缘计算，这样能够节俭大量的公网传输开销，并扩散全局数据计算的压力。

此外，从数据层面看，边缘计算一方面能够筛选出更有价值的数据，另一方面能够通过加工提炼数据的深层价值，以最小的老本记录最有价值的数据。

筛选更有价值的数据

链路数据的价值散布是不平均的。据不齐全统计，调用链的理论查问率小于百万分之一。全量存储数据不仅会造成微小的老本节约，也会显著影响整条数据链路的性能及稳定性。如下列举两种常见的筛选策略。

• 基于链路数据特色进行调用链采样上报（Tag-based Sampling）。比方错/慢调用全采，特定服务每秒前N次采样，特定业务场景自定义采样等。下图展现了阿里云 ARMS 自定义采样配置页面，用户能够依据本身须要自在定制存储策略，理论存储老本通常小于原始数据的 5%。

• 异样场景下主动保留关联数据现场。咱们在诊断问题根因时，除了调用链之外，还须要联合日志、异样堆栈、本地办法耗时、内存快照等关联信息进行综合判断。如果每一次申请的关联信息全都记录下来，大概率会造成零碎的解体。因而，是否通过边缘计算主动保留异样场景下的快照现场是掂量 Tracing 产品优劣的重要规范之一。如下图所示，阿里云 ARMS 产品提供了慢调用线程分析，内存异样 HeapDump 等能力。

无论哪种筛选策略，其核心思想都是通过边缘节点的数据计算，抛弃无用或低价值数据，保留异样现场或满足特定条件的高价值数据。这种基于数据价值的选择性上报策略性价比远高于全量数据上报，将来可能会成为 Tracing 的支流趋势。

提炼数据价值

除了数据筛选，在边缘节点进行数据加工，比方预聚合和压缩，同样能够在满足用户需要的前提下，无效节俭传输和存储老本。

• 预聚合统计：在客户端进行预聚合的最大益处，就是在不损失数据精度的同时大幅缩小数据上报量。比方，对调用链进行 1% 采样后，依然能够提供精准的服务概览/上下游等监控告警能力。

• 数据压缩：对反复呈现的长文本（如异样堆栈，SQL 语句）进行压缩编码，也能够无效升高网络开销。联合非关键字段模糊化解决成果更佳。

冷热数据拆散，低成本满足个性化的后聚合剖析需要

边缘计算能够满足大部分预聚合剖析场景，然而无奈满足多样化的后聚合剖析需要，比方某个业务须要统计耗时大于3秒的接口及起源散布，这种个性化的后聚合剖析规定是无奈穷举的。而当咱们无奈事后定义剖析规定时，貌似就只能采纳老本极高的全量原始数据存储。难道就没有优化的空间么？答案是有的，接下来咱们就介绍一种低成本解决后聚合剖析问题的计划——冷热数据拆散。

冷热数据拆散计划简述

冷热数据拆散的价值根底在于用户的查问行为满足工夫上的局部性原理。简略了解就是，最近的数据最常被查问，冷数据查问概率较小。例如，因为问题诊断的时效性，50% 以上的链路查问剖析产生在 30分钟内，7天之后的链路查问通常集中在错慢调用链。实践根底成立，接下来探讨如何实现冷热数据拆散。

首先，热数据存在时效性，如果只需记录最近一段时间内的热数据，对于存储空间的要求就会降落很多。另外，在私有云环境下，不同用户的数据人造具备隔离性。因而，在用户 VPC 外部的热数据计算和存储计划就具备更优的性价比。

其次，冷数据的查问具备指向性，能够通过不同的采样策略筛选出满足诊断需要的冷数据进行长久化存储。例如错慢采样，特定业务场景采样等。因为冷数据存储周期较长，对稳定性要求较高，能够思考在 Region 内对立治理。

综上所述，热数据存储周期短，成本低，但能够满足实时全量后聚合剖析需要；而冷数据通过精准采样后数据总量大幅降落，通常只有原始数据量的 1% ~10%，并能够满足大多数场景的诊断诉求。两相结合，实现了老本与体验的均衡最优解。国内外当先的 APM 产品，如 ARMS、Datadog、Lightstep 均采纳了冷热数据拆散的存储计划。

热数据实时全量分析

链路明细数据蕴含了最残缺最丰盛的的调用信息，APM 畛域最罕用的服务面板、上下游依赖、利用拓扑等视图均是基于链路明细数据统计得出。基于链路明细数据的后聚合剖析能够依据用户个性化需要更无效的定位问题。然而，后聚合剖析的最大挑战是要基于全量数据进行统计，否则会呈现样本歪斜导致最终论断离理论相差甚远。

阿里云 ARMS 作为 2021 年 Gartner APM 魔力象限中国惟一入选云厂商，提供了 30分钟内热数据全量分析的能力，能够实现各种条件组合下的过滤与聚合，如下图所示：

冷数据长久化采样剖析

全量调用链的长久化存储老本十分高，而前文提到 30分钟后调用链的理论查问率有余百万分之一，并且大多数的查问集中在错慢调用链，或满足特定业务特色的链路，置信常常排查链路问题的同学会有同感。因而，咱们应该只保留大量满足精准采样规定的调用链，从而极大的节俭冷数据长久化存储老本。

那么精准采样应该如何实现呢？业界罕用的办法次要分为头部采样（Head-based Sampling）和尾部采样（Tail-based Sampling）两种。头部采样个别在客户端 Agent 等边缘节点进行，例如依据接口服务进行限流采样或固定比例采样；而尾部采样通常基于全量热数据进行过滤，如错慢全采等。

最现实的采样策略应该只存储真正须要查问的数据，APM 产品须要提供灵便的采样策略配置能力与最佳实际，用户联合本身业务场景进行自适应的调整。

结语

当越来越多的企业和利用上云，私有星散群规模爆发式增长，“老本”将是企业用云的要害掂量因素。而在云原生时代，充分利用边缘节点的计算和存储能力，联合冷热数据拆散实现高性价比的数据价值摸索曾经逐步成为 APM 畛域的支流。全量数据上报、存储、再剖析这种传统计划将面临越来越大的挑战。将来会如何，让咱们刮目相待。

原文链接
本文为阿里云原创内容，未经容许不得转载。

推荐阅读

数据统计
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
数据统计
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
java
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
java
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
java
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
instance
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
main
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
main
ARM汇编基础基于Keil创建STM32汇编程序的编写

文章目录一、新建项目（1）工具介绍（2）创建项目：二、配置环境（1）配置芯片&#x ... [详细]

蜡笔小新 2024-11-12 08:39:33
blob
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51
header
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
java
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
java
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
timestamp
Cacti 数据库错误：SQL 查询失败，错误代码 145

在使用 Cacti 进行监控时，发现已运行的转码机未产生流量，导致 Cacti 监控界面显示该转码机处于宕机状态。进一步检查 Cacti 日志，发现数据库中存在 SQL 查询失败的问题，错误代码为 145。此问题可能是由于数据库表损坏或索引失效所致，建议对相关表进行修复操作以恢复监控功能。 ... [详细]

蜡笔小新 2024-11-11 12:57:49
timestamp
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
main
深入解析MDK链接脚本的应用与优化技巧

本文深入探讨了MDK链接脚本的应用与优化技巧。首先，文章介绍了链接脚本的基本概念及其在嵌入式系统开发中的重要性。接着，通过具体实例详细分析了链接脚本的结构和功能，特别是在程序在FLASH中运行时，如何优化链接脚本以提高系统性能。此外，文章还讨论了无需将程序加载到SRAM中的技术细节，为开发者提供了实用的参考和指导。 ... [详细]

蜡笔小新 2024-11-10 12:32:30

360691894_8a5c48

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章