当前位置: 开发笔记 > 编程语言 > 正文

SkyWalking分布式追踪和应用性能监控系统

作者：Sek_5123_533_477 | 来源：互联网 | 2023-07-30 11:58

用SkyWalking做分布式追踪和应用性能监控系统SkyWalking是观察性分析平台和应用性能管理系统。提供分布式追踪、服务网格遥测分析、度量聚合和可视化一体化解决

用SkyWalking做分布式追踪和应用性能监控系统

SkyWalking 是观察性分析平台和应用性能管理系统。提供分布式追踪、服务网格遥测分析、度量聚合和可视化一体化解决方案。

特性：

多种监控手段，语言探针和service mesh
多语言自动探针，Java，.NET Core和Node.JS
轻量高效，不需要大数据
模块化，UI、存储、集群管理多种机制可选
支持告警
优秀的可视化方案

Skywalking 技术架构

图片.png

整个系统分为三部分：

agent：采集tracing（调用链数据）和metric（指标）信息并上报
OAP：收集tracing和metric信息通过analysis core模块将数据放入持久化容器中（ES，H2（内存数据库），mysql等等），并进行二次统计和监控告警
webapp：前后端分离，前端负责呈现，并将查询请求封装为graphQL提交给后端，后端通过ribbon做负载均衡转发给OAP集群，再将查询结果渲染展示

Skywalking也提供了其他的一些特性：

配置重载：支持通过jvm参数覆写默认配置，支持动态配置管理
集群管理：这个主要体现在OAP，通过集群部署分担数据上报的流量压力和二次计算的计算压力，同时集群也可以通过配置切换角色，分别面向数据采集（collector）和计算（aggregator，alarm），需要注意的是agent目前不支持多collector负载均衡，而是随机从集群中选择一个实例进行数据上报
支持k8s和mesh
支持数据容器的扩展，例如官方主推是ES，通过扩展接口，也可以实现插件去- – 支持其他的数据容器
支持数据上报receiver的扩展，例如目前主要是支持gRPC接受agent的上报，但是也可以实现插件支持其他类型的数据上报（官方默认实现了对Zipkin，telemetry和envoy的支持）
支持客户端采样和服务端采样，不过服务端采样最有意义
官方制定了一个数据查询脚本规范：OAL（Observability Analysis Language），语法类似Linq，以简化数据查询扩展的工作量
支持监控预警，通过OAL获取数据指标和阈值进行对比来触发告警，支持webhook扩展告警方式，支持统计周期的自定义，以及告警静默防止重复告警

数据容器

由于Skywalking并没有自己定制的数据容器或者使用多种数据容器增加复杂度，而是主要使用ElasticSearch（当然开源的基本上都是这样来保持简洁，例如Pinpoint也只使用了HBase），所以数据容器的特性以及自己数据结构基本上就限制了业务的上限，以ES为例：

ES查询功能异常强大，在数据筛选方面碾压其他所有容器，在数据筛选潜力巨大（Skywalking默认的查询维度就比使用HBase的Pinpoint强很多）
支持sharding分片和replicas数据备份，在高可用/高性能/大数据支持都非常好
支持批量插入，高并发下的插入性能大大增强
数据密度低，源于ES会提前构建大量的索引来优化搜索查询，这是查询功能强大和性能好的代价，但是链路跟踪往往有非常多的上下文需要记录，所以Skywalking把这些上下文二进制化然后通过Base64编码放入data_binary字段并且将字段标记为not_analyzed来避免进行预处理建立查询索引

总体来说，Skywalking尽量使用ES在大数据和查询方面的优势，同时尽量减少ES数据密度低的劣势带来的影响，从目前来看，ES在调用链跟踪方面是不二的数据容器，而在数据指标方面，ES也能中规中矩的完成业务，虽然和时序数据库相比要弱一些，但在PB级以下的数据支持也不会有太大问题。

数据结构

如果说数据容器决定了上限，那么数据结构则决定了实际到达的高度。Skywalking的数据结构主要为：

数据维度（ES索引为skywalking_*_inventory)
1. service：服务
2. instance：实例
3. endpoint：接口
4. network_adress：外部依赖
数据内容
1. 原始数据
- 调用链跟踪数据（调用链的trace信息，ES索引为skywalking_segment，Skywalking主要的数据消耗都在这里）
- 指标（主要是jvm或者envoy的运行时指标，例如ES索引skywalking_instance_jvm_cpu）
1. 二次统计指标
- 指标（按维度/时间二次统计出来的例如pxx、sla等指标，例如ES索引skywalking_database_access_p75_month）
- 数据库慢查询记录（数据库索引：skywalking_top_n_database_statement）
1. 关联关系（维度/指标之间的关联关系，ES索引为skywalking_relation)
2. 特别记录
  - 告警信息（ES索引为skywalking_alarm_record）
  - 并发控制（ES索引为skywalking_register_lock）

其中数量占比最大的就是调用链跟踪数据和各种指标，而这些数据均可以通过OAP设置过期时间，以降低历史数据的对磁盘占用和查询效率的影响。

调用链跟踪数据

作为Skywalking的核心数据，调用链跟踪数据（skywalking_segment）基本上奠定了整个系统的基础，而如果要详细的了解调用链跟踪的话，就不得不提到openTracing。

openTracing基本上是目前开源调用链跟踪系统的一个事实标准，它制定了调用链跟踪的基本流程和基本的数据结构，同时也提供了各个语言的实现。如果用一张图来表现openTracing，则是如下：

图片.png

其中：

SpanContext：一个类似于MDC（Slfj)或者ThreadLocal的组件，负责整个调用链数据采集过程中的上下文保持和传递
Trace：一次调用的完整记录
- Span：一次调用中的某个节点/步骤，类似于一层堆栈信息，Trace是由多个Span组成，Span和Span之间也有父子或者并列的关系来标志这个节点/步骤在整个调用中的位置
  - Tag：节点/步骤中的关键信息
  - Log：节点/步骤中的详细记录，例如异常时的异常堆栈
- Baggage：和SpanContext一样并不属于数据结构而是一种机制，主要用于跨Span或者跨实例的上下文传递，Baggage的数据更多是用于运行时，而不会进行持久化

以一个Trace为例：

图片.png

首先是外部请求调用A，然后A依次同步调用了B和C，而B被调用时会去同步调用D，C被调用的时候会依次同步调用E和F，F被调用的时候会通过异步调用G，G则会异步调用H，最终完成一次调用。

上图是通过Span之间的依赖关系来表现一个Trace，而在时间线上，则可以有如下的表达：

图片.png

当然，如果是同步调用的话，父Span的时间占用是包括子Span的时间消耗的。

而落地到Skywalking中，我们以一条skywalking_segment的记录为例：

{ "trace_id": "52.70.15530767312125341", "endpoint_name": "Mysql/JDBI/Connection/commit", "latency": 0, "end_time": 1553076731212, "endpoint_id": 96142, "service_instance_id": 52, "version": 2, "start_time": 1553076731212, "data_binary": "CgwKCjRGnPvp5eikyxsSXhD///8BGMz62NSZLSDM+tjUmS0wju8FQChQAVgBYCF6DgoHZGIudHlwZRIDc3FsehcKC2RiLmluc3RhbmNlEghyaXNrZGF0YXoOCgxkYi5zdGF0ZW1lbnQYAiA0", "service_id": 2, "time_bucket": 20190320181211, "is_error": 0, "segment_id": "52.70.15530767312125340" }

其中：

trace_id：本次调用的唯一id，通过snowflake模式生成
endpoint_name：被调用的接口
latency：耗时
end_time：结束时间戳
endpoint_id：被调用的接口的唯一id
service_instance_id：被调用的实例的唯一id
version：本数据结构的版本号
start_time：开始时间戳
data_binary：里面保存了本次调用的所有Span的数据，序列化并用Base64编码，不会进行分析和用于查询
service_id：服务的唯一id
time_bucket：调用所处的时段
is_error：是否失败
segment_id：数据本身的唯一id，类似于主键，通过snowflake模式生成

这里可以看到，目前Skywalking虽然相较于Pinpoint来说查询的维度要多一些，但是也很有限，而且除了endPoint，并没有和业务有关联的字段，只能通过时间/服务/实例/接口/成功标志/耗时来进行非业务相关的查询，如果后续要增强业务相关的搜索查询的话，应该还需要增加一些用于保存动态内容（如messageId，orderId等业务关键字）的字段用于快速定位

指标

指标数据相对于Tracing则要简单得多了，一般来说就是指标标志、时间戳、指标值，而Skywalking中的指标有两种：一种是采集的原始指标值，例如jvm的各种运行时指标（例如cpu消耗、内存结构、GC信息等）；一种是各种二次统计指标（例如tp性能指标、SLA等，当然也有为了便于查询的更高时间维度的指标，例如基于分钟、小时、天、周、月）

例如以下是索引skywalking_endpoint_cpm_hour中的一条记录，用于标志一个小时内某个接口的cpm指标：

{ "total": 8900, "service_id": 5, "time_bucket": 2019031816, "service_instance_id": 5, "entity_id": "7", "value": 148 }

各个字段的释义如下：

total：一分钟内的调用总量
service_id：所属服务的唯一id
time_bucket：统计的时段
service_instance_id：所属实例的唯一id
entity_id：接口（endpoint）的唯一id
value：cpm的指标值（cpm=call per minute，即total/60）

agent

agent（apm-sniffer）是Skywalking的Java探针实现，主要负责：

采集应用实例的jvm指标
通过切向编程进行数据埋点，采集调用链数据
通过RPC将采集的数据上报

当然，agent还实现了客户端采样，不过在APM监控系统里进行客户端数据采样都是没有灵魂的，所以这里就不再赘述了。

首先，agent通过 org.apache.skywalking.apm.agent.core.boot.BootService 实现了整体的插件化，agent启动会加载所有的BootService实现，并通过 ServiceManager 来管理这些插件的生命周期，采集jvm指标、gRPC连接管理、调用链数据维护、数据上报OAP这些服务均是通过这种方式扩展。

然后，agent还通过bytebuddy以javaagent的模式，通过字节码增强的机制来构造AOP环境，再提供PluginDefine的规范方便探针的开发，最终实现非侵入性的数据埋点，采集调用链数据。

OAP

同agent类似，OAP作为Skywalking最核心的模块，也实现了自己的扩展机制，不过在这里叫做Module，具体可以参考library-module，在module的机制下，Skywalking实现了自己必须核心组件：

core：整个OAP核心业务（remoting、cluster、storage、analysis、query、alarm）的规范和接口
cluster：集群管理的具体实现
storage：数据容器的具体实现
query：为前端提供的查询接口的具体实现
receiver：接收探针上报数据的接收器的具体实现
alarm：监控告警的具体实现

以及一个可选组件：

telemetry：用于监控OAP自身的健康状况

而前面提到的OAP的高扩展性则体现在核心业务的规范均定义在了core中，如果有需要自己扩展的，只需要自己单独做自己的实现，而不需要做侵入式的改动，最典型的示例则是官方支持的storage，不仅支持单机demo的内存数据库H2和经典的ES，连目前开源的Tidb都可以接入。

【转载请注明出处】：https://blog.csdn.net/huahao1989/article/details/107117546

推荐阅读

io
J2EE平台的13项核心技术规范

J2EE平台集成了多种服务、API和协议，旨在支持基于Web的多层应用开发。本文将详细介绍J2EE平台中的13项关键技术规范，涵盖从数据库连接到事务处理等多个方面。 ... [详细]

蜡笔小新 2024-11-27 16:27:50
io
Flutter与Angular的对比分析

本文探讨了Flutter和Angular这两个流行框架的主要区别，包括它们的设计理念、适用场景及技术实现。 ... [详细]

蜡笔小新 2024-11-28 13:19:52
io
酷家乐 Serverless FaaS 产品实践探索

本文探讨了酷家乐在 Serverless FaaS 领域的实践与经验，重点介绍了 FaaS 平台的构建、业务收益及未来发展方向。 ... [详细]

蜡笔小新 2024-11-27 10:22:39
install
MySQL 安装指南

本文档提供了详细的MySQL安装步骤，包括解压安装文件、选择安装类型、配置MySQL服务以及设置管理员密码等关键环节，帮助用户顺利完成MySQL的安装。 ... [详细]

蜡笔小新 2024-11-27 09:10:30
java
Golang与微服务架构：构建高效微服务

本文探讨了Golang在微服务架构中的应用，包括Golang的基本概念、微服务开发的优势、常用开发工具以及具体实践案例。 ... [详细]

蜡笔小新 2024-11-26 19:21:09
java
集群与负载均衡技术解析

本文探讨了集群(Cluster)的概念，即通过网络连接的一组计算机系统，它们作为一个整体提供服务，实现分布式计算。文章还详细介绍了负载均衡技术，旨在提高网络服务的效率和可靠性。 ... [详细]

蜡笔小新 2024-11-26 13:44:24
install
PHP 5.4 下 Windows 7 环境中 Memcached 分布式缓存的安装与配置

本文详细介绍了在 Windows 7 上安装和配置 PHP 5.4 的 Memcached 分布式缓存系统的方法，旨在减少数据库的频繁访问，提高应用程序的响应速度。 ... [详细]

蜡笔小新 2024-11-26 04:43:01
install
Manta Network 携手 Axelar 推动跨链隐私保护

Web3隐私协议Manta Network与区块链互操作性平台Axelar达成战略合作，共同推进跨链资产的隐私保护。 ... [详细]

蜡笔小新 2024-11-28 18:20:12
install
理解HTTP状态码及其应用

本文详细解析了HTTP状态码的分类及常见代码的意义，帮助开发者和用户更好地理解和解决网络请求中遇到的问题。 ... [详细]

蜡笔小新 2024-11-28 17:29:06
email
UMPlatForm.NET 5.1 版本数据字典管理功能解析

本文介绍了 UMPlatForm.NET 5.1 版本中的数据字典管理模块，探讨了该模块如何支持平台的数据共享与管理，以及如何通过用户和角色权限来增强系统的安全性。 ... [详细]

蜡笔小新 2024-11-27 11:24:54
java
Spring Boot 初学者指南（第一部分）

本文介绍了Spring Boot框架的基础知识，包括其设计理念、主要优势以及如何简化传统的J2EE开发流程。 ... [详细]

蜡笔小新 2024-11-27 10:39:14
java
程序员必备：深入解析分布式文件系统

本文深入探讨了分布式文件系统的核心概念及其在现代数据存储解决方案中的应用，特别是针对大规模数据处理的需求。文章不仅介绍了多种流行的分布式文件系统和NoSQL数据库，还提供了选择合适系统的指导原则。 ... [详细]

蜡笔小新 2024-11-27 09:49:40
hash
时序数据库的应用与设计策略

时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接，可以构建多维度报表，揭示数据的趋势、规律及异常情况。 ... [详细]

蜡笔小新 2024-11-26 17:30:42
install
深入解析轻量级数据库 SQL Server Express LocalDB

本文详细介绍了 SQL Server Express LocalDB，这是一种轻量级的本地 T-SQL 数据库解决方案，特别适合开发环境使用。文章还探讨了 LocalDB 与其他轻量级数据库的对比，并提供了安装和连接 LocalDB 的步骤。 ... [详细]

蜡笔小新 2024-11-25 20:36:01
数组
Java虚拟机及其发展历程

Java虚拟机（JVM）是每个Java开发者日常工作中不可或缺的一部分，但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程，帮助读者深入了解这一关键技术。 ... [详细]

蜡笔小新 2024-11-23 08:59:58

Sek_5123_533_477

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章