在数字化转型时期,越来越多的企业认识到IT运维已经从内部运营支撑逐步演进为企业的核心竞争力。运维做不好,金融、电信、能源、工业制造、互联网、物联网等各行各业都不能高效、稳定、可靠地运转。
既然运维如此重要,为什么还会出现各种各样、甚至影响非常大的故障呢?
监控容易做,告警很难报
【2015年】某互联网公司系统瘫痪12h,股价暴跌11%,宕机损失平均106.48万美元/h;
【2015年、2016年】某公有云两次出现系统故障,大量互联网公司业务受影响,损失过亿;
【2015年】某银行系统异常影响50家证券50亿元的银证转账操作,证监会点名“责令整改”;
【2016年】某银行因圣诞新年过多网银交易系统崩溃24h+,影响17000万客户;
……
监控告警不及时,造成业务影响范围扩大,故障修复时间延长,企业经营损失增加。
AnyRobot实时告警与传统分钟级告警对比图
AnyRobot实时告警
为何可以有效减少业务损失?
在异常发生时,AnyRobot实时告警立即捕获异常日志,并将异常日志输入到Kafka消息队列。AnyRobot利用统一实时计算引擎精确处理每条日志,及时判别其是否为故障日志,秒级触发系统告警,缩小故障影响范围,进而成倍降低业务损失。
统一实时计算引擎技术架构揭秘
统一实时计算引擎技术优势
高吞吐:每秒查询、计算近百万个事件;
实时性:实时匹配告警搜索条件,告警事件触发小于1秒;
保证一致性:每条日志都被精确计算处理。
AnyRobot实时告警应用场景
01
银行新柜面系统响应异常告警
在新柜面系统出现reply_code:002002时,AnyRobot秒级触发预置的告警策略,通过syslog协议将告警事件转发至银行的统一事件管理中心。运维管理员登录AnyRobot,查看错误日志,确认告警详情为“与服务提供方系统通讯失败”;点击查看告警日志上下文,判定是何原因导致该事件发生,有效减少故障发现时间,缩小交易业务影响范围。
告警原始日志定位
02
核心数据库非工作时间段异常访问告警
在AnyRobot平台上设置非工作时间段访问数据库,触发告警。一旦发生异常访问告警,立即反馈到运维管理员;管理员登录AnyRobot平台,查看并审计该访问记录是否合规,避免数据泄露风险,确保核心数据资产安全。
数据库访问记录
03
门户网站请求响应码4XX或5XX告警
门户网站访问请求响应码为4XX或5XX,触发实时告警。运维管理员及时登录查看确认是否有外部威胁访问行为,及时禁止该IP地址和用户的访问请求,规避潜在风险。
状态码查询
04
核心认证系统认证失败和账户锁定,实时监控告警
通过实时监控分析,AnyRobot可以对异常访问核心认证系统行为进行实时告警。运维人员可在AnyRobot平台上快速锁定访问路径、操作源头等;并从原有日志中筛选出最具代表性的事件类型,统计单IP多用户的异常敏感行为(如帐户频繁锁定等),及时洞察核心认证系统的异常操作行为,避免安全威胁事件发生。
账户频繁锁定
点击阅读原文,立即获取
AnyRobot实时告警技术特性解读材料