热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

揭秘百度微服务监控:百度游戏服务监控的演进

揭,秘,百度,微服,务,监控,百度,游戏,

图片

导读:臣闻防患于未然者易,除患于已然者难 —— 明·马文升《添风宪以抚流民疏》

作为一个程序员,是否有留意到每逢节假日在各大景区时有程序员打开电脑紧急处理线上问题?如果线上出现大量的报警,这时我们该如何判断是自身服务问题还是依赖服务问题?午夜线上重大问题出现,如何能够唤醒相关人员快速响应?相信这些问题对于很多同学都不陌生,监控的重要性不言而喻,那如何打造一个完善的监控系统,协助程序员发现并高效定位问题?本文将介绍百度游戏微服务监控实践,基于百度完善的监控基础实施,我们打造了较为完善的监控系统,下面我们向大家介绍我们的实践历程。

全文4583字,预计阅读时间 9分钟。

一、背景

随着业务的快速发展,游戏服务端研发同学平均每人要维护2~3个微服务,后续业务场景增多可能会引入更多微服务,如何高效的获悉整个微服务系统的运行状态,业务异常时如何快速发现问题并解除故障,游戏服务端研发同学在监控实践上做了很多工作尝试。

初期的监控基于公司的Argus监控(日志服务器相关监控)、Monitor监控平台(业务监控)、Sia监控(可视化监控)等覆盖了一些基础的监控,但是由于缺乏体系、缺少和业务的结合,整体的效果并不理想,不少问题依然是客服和产品同学反馈,同时在跟进问题过程中研发最为头疼的一个点是在问题定位上往往要花很长的时间,这个对业务造成了一定的负面影响。在这种情况下我们系统化的梳理了面临的问题并体系化的设计和优化完善了监控系统,并着重针对问题定位做了和业务的深度结合,大大提升了问题的定位效率。

下面将就我们监控系统的建设过程整体介绍,希望对读者有所帮助。

二、微服务监控初探

监控建设初期我们主要是基于百度的监控基础设施添加各种监控,但是由于缺乏体系效果并不理想。尽管初探阶段我们监控能力不够完善且能力较弱,但这些分散的监控措施也帮助研发同学发现了不少系统问题,为后续的体系化和多维度组合监控打下了基础。

2.1、日志和服务器监控

利用百度Argus监控平台,实现对机器状态和业务日志的监控,游戏微服务借助机器及日志监控能力对线上服务进行了监控的覆盖。

我们初期对Argus监控的应用偏单维化,结合业务场景的深度不够,诸如某个问题某些实例的监测阈值及多维度报警能力初期并没有考虑设计,下面是对于百度Argus监控的能力和流程介绍:

图片

argus整体数据流如下,可以支持电话、SMS、短信及百度如流报警

图片

日志相关监控业界有大家熟悉的ELK Stack 方案(Elasticseach + Logstash + Kibana),使用Beats(可选)在每台服务器上安装后,作为日志客户端收集器,然后通过Logstash进行统一的日志收集、解析、过滤等处理,再将数据发送给Elasticsearch中进行存储分析,最后使用Kibana来进行数据的展示。

2.2、服务轮询监控

利用百度monitor监控平台,对于核心的接口采用定时轮询检测的机制来辅助监控线上服务质量,monitor平台支持可视化配置,但是需要针对每个场景做定制化配置,随着业务快速的迭代,这种监控添加的效率和易用性已不能满足业务的需求。

图片

2.3、服务可视化监控

利用公司SIA智能监控系统,实现了服务流量、可用性、性能等指标的监控可视化,可以辅助业务研发可视化的观察服务线上状态并基于线上异常状态报警。但是业务对于SIA智能监控能力并没有充分使用,导致可视化的辅助作用有限,智能能力没有体现。

图片

图3 监控可视化

对于业界的可视化监控工具,有诸如Kibana、Grafana等,相关的能力都已很完善,基本可以满足业务的各种展现需求,大家可以参考了解。

三、微服务监控演进

如上面所阐述的,监控初探阶段的监控措施虽然可以辅助研发发现和定位一些问题,但是还是存在诸多问题,主要是如下四个方面:

  • 风险暴露滞后,大多报警发生时已造成影响;

  • 监控缺乏统一规划,相关监控项混乱且覆盖极不完整;

  • 监控能力弱,无法提供有效异常信息;

  • 报警混乱,研发被报警信息轰炸;

从整体监系统建设成本和收益来看,我们不会将过去的监控全部推翻,而是基于在现有基础监控的能力上加以完善。首先我们以系统化的视角对于监控系统做全面设计,然后基于设计强化监控系统各个部分的能力。

3.1、监控系统化设计

目标:有效预防、及时发现、快速止损;

落地:基于系统化的设计目标,做了如下的落地思路拆解。

图片

实现上从风险控制、智能监控、智能报警、高效定位四个方面来设计微服务系统的监控系统化工作,整体流程如下:

图片

下面从风险控制、智能监控、智能报警和高效定位四个方面逐一介绍。

3.1.1风险控制设计

线上问题发现的时机越早越好,由于研发同学水平客观上存在差异,且通过cooder review无法有效规避上线问题的发生,所以游戏业务研发在自动化case和发布环节做了较多的工作,以减少问题的发生。下面是研发做的主要风险控制项,通过这些风险控制项的落地,目前已经可以减少95%以上的上线中问题。

图片

3.1.2智能监控设计

游戏业务初期的监控,是分散的监控添加:日志监控使用argus,可视化的监控实验SIA智能监控平台,监控的覆盖和监控系统之间的协同效果并没有做全局考虑,这样就暴露出一些问题,如:

问题1:

按照监控对象划分的监控,是在单一维度上做到有效覆盖,但是系统全局波动异常如何探测?

问题2:

某个实例因为网络或机器磁盘偶发故障导致pvlost突增,如何高效的获得信息?

问题3:

系统可用性波动,是某个机房的问题,还是特定接口的问题,或是访问下游的异常?

(1)智能异常检测

利用SIA系统的智能异常检测算法,将耗时、流量、SLA指标、收入等指标纳入到监控体系,可以高效探测到系统的周期/非周期波动异常,下面简单介绍下主要的算法。

图片

通过将上述指标同游戏业务的流量、耗时、收入等指标的结合,在系统周期性或非周期性的波动时,即使是较为缓慢的下降也可以通过这些周期性检测工具

有效检测,大大提高异常检测覆盖度。

(2)全场景监控覆盖

我们从4个象限覆盖监控,做到问题暴露无死角,同时针对诸如服务维度的监控,还细化了多维度的筛选能力,力求从宏观视角便于发现问题的同时也做到在微观世界能够辅助高效定位问题。

图片

这里我们着重提下数据监控,我们针对游戏业务的特殊化场景,细化了需要监控的数据以及场景,以确保监控的完整覆盖,下面是数据相关的一些监控项。

图片

(3)多维度监控可视化辅助

多维度筛选能力:服务、接口、错误码、机房、机器实例;

异常多维度可视化 :如pvlost基于接口、机器、机房的分布;

错误分布可视化:分接口、分错误码;

图片

图6 多维度监控可视化

3.1.3智能报警设计

报警整体做了分级报警设计,基于不同的场景设置不同的报警范围和报警方式,减少了非重要报警的信息泛滥,同时在报警应用上有如下整体设计:

(1)智能合并过滤与自动升级

图片

智能过滤:减少报警信息的过渡泛滥,做一定的信息筛选;

智能报警合并:通过信息的合并,提升报警的信息简介度,进一步减少报警信息泛滥;

报警自动升级:解决了困扰报警触达不了值班人的问题,通过设置不同阈值扩大到不同的范围,并升级报警的形式从邮件->如流->短信->电话,且报警电话可以设置不断的拨打直至有人响应为止,解决了触达的问题;

(2)样式内容自定义

对于普通的实例报警或服务报警,相应报警信息按照固定格式进行输出;

核心逻辑部分添加基于富文本的报警内容定义,完整的展示报警信息和报警问题,并提供问题的上下文语义,大大提高了信息量,为定位问题提供了充足有效的信息。

图片

图8 报警内容样式自定义

3.1.4高效定位能力支持

图片

报警暴露信息高效:对于关键核心逻辑采用Trace链路+机器人方式来实现报警的高效触达和自定义化输出,实现信息的高效传递;

报警信息确认高效:部分注意考虑在异常信息报警后,为了确认线上的相关完整日志数据和请求当时数据情况的快速数据检索,实时trace系统高效的解决了这个问题;

(1)核心逻辑机器人Trace链路信息

报警暴露信息在核心逻辑已基本达到了分钟级的问题报警 + 问题的自动定位,研发基于报警信息即可以看到对应的问题代码行数及出错原因,大大提高了问题的定位效率。

当然这个方式的报警目前还存在实现成本较高的问题,诸如在游戏业务的充值完成后给用户发道具过程中如果存在一次,我们会暴露出请求参数、出错函数及出错的具体原因,研究基于这个数据可以直观的明确具体的问题,但是这个需要较为定制化的实现,有一定接入成本。

图片

(2)实时trace系统接入

利用百度trace中台的能力,可以做到业务在非侵入式的情况下进行采集,接入成本极低。对于时效性方面采用了百度DataHub消息队列,并利用Dstream实时建索引,使得从数据源到故障定位平台可以基于关键信息的检索时效性在5分钟以内,大大的提高研发定位效率。

图片

四、微服务监控全景图

图片

4.1用户触达

通过多维度可视化监控,辅助研发基于可视化界面即可快速分析出问题大致原因;基于智能报警和业务报表,可以满足在时效性和业务详细健康度的全面检测,让研发同学全面感知系统的状态;

4.2监控工具

基于公司提供的Argus监控、Sia智能监控和机器人监控辅助工具,可以完整的对系统进行全面覆盖;对于一些长周期的业务数据,诸如应用日活、下载成功率、白屏率等指标数据,则提供定制化的监控以覆盖此类场景的监控;

4.3监控指标

对于监控指标大体分位如上一些分类,基于这些分类做到监控的有效覆盖;

4.4监控对象

监控对象从服务器、业务日志、服务状态到业务数据、业务核心逻辑和核心场景,通过全面的监控对象梳理已做到对于监控的全面掌控。

五、总结展望

通过系统化的监控能力建设,无论是在时效性、定位效率还是覆盖度等均达到了较为理想的状态,研发对于重大的线上问题可以第一时间感知,并有完善的辅助定位信息来协助高效定位问题,总结整体监控的实践过程,主要是有以下几个方面的心得。

(1)系统化设计落地

监控系统首先要明确解决的是什么问题,达到的是什么目标,将问题和目标理解清楚后,实现上就以如何充分解决问题并达成目标来思考,基于这样一个系统化的分析拆解过程,我们从风险控制、智能监控、智能报警、高效定位几个部分入手来实现我们的监控系统,以达到预期的目标。

(2)分级的思考方式在监控和报警中应用,核心逻辑集中火力

无论是监控还是报警,我们都以目标集中于重要的功能和核心逻辑,如果现有工具无法达到目标,那就考虑多个工具组合来满足监控的目标。对于通用的逻辑功能则强调覆盖程度,以现有工具完整覆盖。

(3)易于实施和落地

公司提供的SIA智能监控、argus监控都有提供聚合的能力,对于同质的内容监控做到一步到位。而对于异构或差异化的服务,则可以以业务方现有的形式以非侵入能力支持接入,大大提高了监控的添加效率。

(4)充分结合公司现有能力,创新组合应用,提高效率

在使用监控基础实施的时候,不同的监控工具各有优劣,充分利用不同的监控工具的优势达到整体监控效果的最优,同时对于诸如一些核心逻辑的监控,创新的使用机器人报警+trace的内容定制化能力,实现对于核心逻辑问题的高效反馈和定位。

虽然在监控系统方面的实践已经达到了较为理想的效果,但是在系统故障处理、容灾等能力的自动化机制上有待进一步完善建设,且对于系统资源的使用并没有做到智能化的利用,目前资源的增减仍然有赖于人工的干预。后续的优化目标是在故障自动化处理、资源智能扩缩容上达到全面的自动化,以提供系统整体的可维护性和可用性。

推荐阅读:

|如何像百度直播一样优化用户体验(起播篇)

|百度搜索稳定性问题分析的故事(下)

|百度搜索稳定性问题分析的故事(上)

---------- END ----------

百度Geek说

百度官方技术公众号上线啦!

技术干货 · 行业资讯 · 线上沙龙 · 行业大会

招聘信息 · 内推信息 · 技术书籍 · 百度周边

欢迎各位同学关注


推荐阅读
  • OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战
    OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战 ... [详细]
  • 回顾过去十多年的开发经历,我在技术能力、培训机会、国际视野以及大型企业的工作经验方面都有了显著的提升。特别是从最初的月薪8k到如今的38k,这一过程中,我深刻体会到系统化学习对提升架构能力的重要性。最初踏入职场时,面对众多未知,我主要依赖团队领导的指导,专注于编写代码、管理数据库和进行测试。随着经验的积累和技术的不断进步,我逐渐意识到,只有通过系统化的学习和实践,才能在技术领域取得更大的突破。 ... [详细]
  • 题目解析给定 n 个人和 n 种书籍,每个人都有一个包含自己喜好的书籍列表。目标是计算出满足以下条件的分配方案数量:1. 每个人都必须获得他们喜欢的书籍;2. 每本书只能分配给一个人。通过使用深度优先搜索算法,可以系统地探索所有可能的分配组合,确保每个分配方案都符合上述条件。该方法能够有效地处理这类组合优化问题,找到所有可行的解。 ... [详细]
  • 人人租机作为国内领先的信用免押租赁平台,为企业和个人提供全方位的新租赁服务。通过接入支付宝小程序功能,该平台实现了从零到百的迅猛增长,成为全国首家推出“新租赁小程序”开发服务的阿里巴巴小程序服务商(ISV)。这一创新举措不仅提升了用户体验,还显著增强了平台的市场竞争力。 ... [详细]
  • 2019年后蚂蚁集团与拼多多面试经验详述与深度剖析
    2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]
  • 阿里巴巴Java后端开发面试:TCP、Netty、HashMap、并发锁与红黑树深度解析 ... [详细]
  • 探讨Redis的最佳应用场景
    本文将深入探讨Redis在不同场景下的最佳应用,包括其优势和适用范围。 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 深入解析 Synchronized 锁的升级机制及其在并发编程中的应用
    深入解析 Synchronized 锁的升级机制及其在并发编程中的应用 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • Java Socket 关键参数详解与优化建议
    Java Socket 的 API 虽然被广泛使用,但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数,如 backlog 参数,它用于控制服务器等待连接请求的队列长度。此外,还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响,并提供了优化建议,帮助开发者提升网络通信的稳定性和效率。 ... [详细]
  • C++ 异步编程中获取线程执行结果的方法与技巧及其在前端开发中的应用探讨
    本文探讨了C++异步编程中获取线程执行结果的方法与技巧,并深入分析了这些技术在前端开发中的应用。通过对比不同的异步编程模型,本文详细介绍了如何高效地处理多线程任务,确保程序的稳定性和性能。同时,文章还结合实际案例,展示了这些方法在前端异步编程中的具体实现和优化策略。 ... [详细]
  • 在当今的软件开发领域,分布式技术已成为程序员不可或缺的核心技能之一,尤其在面试中更是考察的重点。无论是小微企业还是大型企业,掌握分布式技术对于提升工作效率和解决实际问题都至关重要。本周的Java架构师实战训练营中,我们深入探讨了Kafka这一高效的分布式消息系统,它不仅支持发布订阅模式,还能在高并发场景下保持高性能和高可靠性。通过实际案例和代码演练,学员们对Kafka的应用有了更加深刻的理解。 ... [详细]
  • 经过两天的努力,终于成功解决了半平面交模板题POJ3335的问题。原来是在`OnLeft`函数中漏掉了关键的等于号。通过这次训练,不仅加深了对半平面交算法的理解,还提升了调试和代码实现的能力。未来将继续深入研究计算几何的其他核心问题,进一步巩固和拓展相关知识。 ... [详细]
  • 从用户转型为开发者:一场思维升级的旅程 | 专访 StarRocks Committer 周威
    从用户转变为开发者,不仅是一次角色的转换,更是一场深刻的思维升级之旅。本次专访中,StarRocks Committer 周威分享了他如何在这一过程中逐步提升技术能力与思维方式,为开源社区贡献自己的力量。 ... [详细]
author-avatar
lkiouy_107
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有