热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

TAC报警中心:专有云告警生命周期一站式管理运维平台

tac,报警,中心,专,有云,告警,生命周期,一,站,式

TAC报警中心是阿里云SRE团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。

1 功能特点

1.1 告警汇聚

  • 默认集成:云平台、大数据、云实例、站点应用
  • 支持扩展:自定义监控

1.2 报警通道

  • 钉钉、本地化钉钉
  • 短信设备、公共云短信服务
  • 企业邮箱
2 平台体系

TAC_
图1:TAC平台体系

3 架构设计

TAC_
图2:TAC架构设计

4 界面展示

TAC_
图3:TAC界面展示

5 主要功能

5.1 告警中心

  • 展示TAC平台当前所有的告警数据,并显示近7天的产品告警TOP排行

5.2 告警工作台

  • 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警
  • 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学
  • 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸
  • 展示当前告警总数、待处理告警数、已关闭的告警数以及近7天的MTTR和平均MTTR

5.3 策略中心

  • 可以通过设置自动分派策略,当指定的产品出现告警后会自动为该用户认领告警
  • 当天首次出现的告警会立即通知,非首次出现的告警需要遵循1440分钟的静默期后通知
  • 可以控制告警发送时的状态,发生时、认领时、关闭时
  • 可以预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效

5.4 推送配置

  • 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警
  • 提供钉钉、短信、邮件的外发配置页面

5.5 系统配置

  • 可以在实例管理页面手动创建或导入需要监控的实例列表
  • 例如项目未部署大数据产品可以在菜单管理页面通过禁用的方式控制首页的告警展示
  • 当想同时管理多朵云时,可以在配置管理页面创建多个节点,配置多个节点的告警数据接口
  • 当数据源有监控能力增加时,TAC无需升级,只需在监控管理页面增加监控项名称即可具备监控能力

5.6 站点监控配置

  • 在监控任务页面可以配置用户关心的网站、机器或某个接口,TAC会根据规则进行监控
  • 若现场以前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC来展示和外发

目前,中国区100+项目已部署TAC,其中有40%+的项目可以通过钉钉、短信或邮件的方式实现告警外发。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。

作者:黄家亮

阿里云智能GTS-SRE团队资深技术支持工程师

7年IT从业经验,超3年阿里专有云运维管理经验,现就职于阿里云智能GTS-SRE团队,负责运维开发工作,期间深度参与并负责铜雀、TAM企业服务运营管理平台以及TAC报警中心三个系统从0到1的建设工作,有效提高专有云运维能力和效率。

我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。
_


推荐阅读
  • 数据集成策略:ETL与ELT架构对比及工具选择
    随着企业信息化的深入发展,‘数据孤岛’问题日益突出,阻碍了数据的有效利用与整合。本文探讨了如何通过构建数据仓库解决这一问题,重点分析了ETL与ELT两种数据处理架构的特点及适用场景,为企业选择合适的ETL工具提供了指导。 ... [详细]
  • Spring Cloud因其强大的功能和灵活性,被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现,还被广泛应用于企业级生产环境中。本书内容详实,覆盖了从微服务基础到Spring Cloud的高级应用,适合各层次的开发者。 ... [详细]
  • ArchSummit深圳2014将于7月18日拉开帷幕,所有讲师已确认,涵盖9个热门话题,共36场精彩报告。InfoQ中文站提供了详细的讲师和报告列表。 ... [详细]
  • 本文详细介绍了 Kubernetes 集群管理工具 kubectl 的基本使用方法,涵盖了一系列常用的命令及其应用场景,旨在帮助初学者快速掌握 kubectl 的基本操作。 ... [详细]
  • 收割机|篇幅_国内最牛逼的笔记,不接受反驳!!
    收割机|篇幅_国内最牛逼的笔记,不接受反驳!! ... [详细]
  • 解读 DevOps:开发与运维的融合之道
    近年来,随着信息技术的快速发展,DevOps作为一种新的IT管理理念逐渐受到重视。本文将探讨DevOps的核心概念及其对现代企业的重要意义。 ... [详细]
  • 本文详细探讨了虚拟化的基本概念,包括服务器虚拟化、网络虚拟化及其在云计算环境中的应用。特别强调了SDN技术在网络虚拟化和云计算中的关键作用,以及网络虚拟化技术如何提升资源利用效率和管理灵活性。 ... [详细]
  • mysql 分库分表策略_【数据库】分库分表策略
    关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后,由于查询维度较多, ... [详细]
  • 我有一个SpringRestController,它处理API调用的版本1。继承在SpringRestControllerpackagerest.v1;RestCon ... [详细]
  • 探索新一代API文档工具,告别Swagger的繁琐
    对于后端开发者而言,编写和维护API文档既繁琐又不可或缺。本文将介绍一款全新的API文档工具,帮助团队更高效地协作,简化API文档生成流程。 ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 深入解析Serverless架构模式
    本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
  • 深入解析Java虚拟机(JVM)架构与原理
    本文旨在为读者提供对Java虚拟机(JVM)的全面理解,涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制,帮助开发者更好地掌握Java编程的核心技术。 ... [详细]
  • 本文将详细介绍多个流行的 Android 视频处理开源框架,包括 ijkplayer、FFmpeg、Vitamio、ExoPlayer 等。每个框架都有其独特的优势和应用场景,帮助开发者更高效地进行视频处理和播放。 ... [详细]
  • 58同城的Elasticsearch应用与平台构建实践
    本文由58同城高级架构师于伯伟分享,由陈树昌编辑整理,内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用,特别是在58同城的实施案例,包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]
author-avatar
Mr_JJwonG05
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有