热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

数据中心_数据中心里如何做好日志监控

篇首语:本文由编程笔记#小编为大家整理,主要介绍了数据中心里如何做好日志监控相关的知识,希望对你有一定的参考价值。 ======= 日志是带时间标记的足迹、记录行为、条件和事件,数据中心里的任何

篇首语:本文由编程笔记#小编为大家整理,主要介绍了数据中心里如何做好日志监控相关的知识,希望对你有一定的参考价值。




=======


日志是带时间标记的足迹、记录行为、条件和事件,数据中心里的任何设备都会有日志输出,对这些日志进行管理是数据中心运维工作的重要组成部分。日志管理不但可以对日常操作进行控制与管理提供依据,还可以在某些故障发生之前通过日志信息就能感知到,也可以在故障发生时打印一些异常记录,还可以供故障发生后分析使用。作为数据中心的运维人员学会检查和分析日志数据,是一项必备的技能。然而日志是一把“双刃剑”,用好它,可以大幅提升数据中心的运维水平,降低数据中心的故障发生概率,节约运维开销;用不好它,反而会画蛇添足,增加运维的工作量,加大开销,所以对于数据中心日志的管理和使用,是一门大学问,如何灵活运用是摆在每个数据中心运维者面前的一道难题。本文抛砖引玉,说一说这里的道道。


数据中心里的设备成千上万,尤其是大型数据中心,各种服务器、网络设备、安全与存储等,拥有数千台设备的规模很正常,如果这些设备每台一天报一条日志信息,那么就是数千条日志,这个数据量可想而知。而且最为令人头疼的是,不同厂家甚至是同一厂家的不同型号设备的日志信息格式完全不同,无法通过通用的日志服务器去采集,有时甚至要一类设备用一种日志服务器,另一类设备用另外一种。一个数据中心为了获取所有设备的日志信息,要搭建数个日志服务器,分别进行监控,这样查看和管理起来非常不便,而且不同设备的日志风格不同,有些信息含义并不十分明确,让人丈二和尚摸不着头脑,这都让日志的作用大打折扣。还有很多问题,并不能通过日志提前发现问题。平时可能设备上报了很多日志信息,但是都是一些无关痛痒的无用信息,而真正出现故障了,反而没有任何日志报出了,采集这样的日志信息无助于数据中心管理提升,而是给数据中心添乱。还有不少的数据中心为了节省管理费用,管理网与数据网合一,管理网的数据也走业务转发设备,这样在真正出现故障时,日志信息经过的网络路径也出了故障,就会导致日志信息的丢弃,也错失了避免严重故障的机会,这些都是当前数据中心在日志监控上面临的问题。


怎样将数据中心的日志监控有效做起来,是每个数据中心最为关心的问题。首先,日志信息要统一格式。作为甲方,数据中心有权利要求其采购的设备输出日志符合通用日志服务器采集的格式,无法满足的设备坚决不再进行后期采购,如此一来就可以在整个数据中心部署一套日志监控设备即可,这样可大幅节省监控设备的运维支出;其次,日志采集与业务转发分离,日志数据走单独的管理网,管理网一般是通过专有设备将所有设备的管理口,服务器的单独网卡连接起来,这样业务网络有中断,并不影响到日志数据的收集,这样往往可以给分析问题提供及时、有效的信息,缩短故障定位和恢复的时间;第三,日志信息要简洁和准确,一个大型数据中心数千台设备,不能什么日志都向日志主机发送,只有可能影响到转发业务的日志才会采集,如果设备无法控制,就在日志服务器上进行控制,对不同日志进行等级分类,平时只关注级别高的告警,级别低的忽略不计。此时,设备提供的日志准确性尤为重要,哪些日志可能会影响业务,哪些日志是提示性的,哪些日志是操作类的记录,这样分得清楚,这样在日志服务器上可以调取自己关心的那类日志,不用全部查看,这将大大节省日常运维的检查时间;第四,很多数据中心已经开始做自动化的运维管理,对日志服务器增加自动化检查的脚本,通过脚本对日志进行检查,这样可大大节省人工成本。这种自动化运维管理是通过TCL脚本,对日志进行检查,当发现异常关键字时,给出自动告警,有些脚本还可以自动执行一些恢复的设备命令,这样达到发现故障自行恢复的目的。比如:可以在自动化脚本中增加“Fan is fault”的判断,当发现日志里出现这样的字样时就主动给出提示,或者将告警直接发向运维人员的值班手机上,这样运维人员立即就能知道是哪台设备的风扇出了问题,日志自动化管理是数据中心提升运维水平的重要手段;第五,与设备商做好交流沟通,要求设备商提供完整的日志信息,包括告警级别的分类,这些日志的准确性将直接决定未来运维的效率,如果设备商的设备在故障时,并没有从日志中反映出来,就说明这些设备做得还不够好,要改进。所有的故障都应该通过日志反映出来,这样才能高效运维。设备可维护性也可作为数据中心未来采购的重要参考标准。操作灵活性差,信息记录缺失都是可维护性差的表现,对于这类设备应检查采购或不采购。数据中心出了问题并不可怕,可怕的是出了问题后还不知道怎么回事,没有历史记录可查。


日志监控是未来数据中心管理的重要组成部分,通过日志监控可以避免或者减少业务故障的时间,对于数据中心运维特别有意义。当然,日志监控并不能解决数据中心所有问题,数据中心业务特别复杂,问题表现各异,就算日志监控做得再完整,很多问题也不能通过日志完全反映出来。比如通过FTP下载数据慢,这样业务层问题,通过日志很难反映出来,就需要借助抓包、统计报文等其它手段再深入分析。总之,日志监控还需要不断完善,不仅是数据中心,也需要数据中心设备提供商一起努力,将日志监控做好,从而提升数据中心的运维水平。


(来源:企业网D1Net) 


如果您在企业IT、网络、通信行业的某一领域工作,并希望分享观点,欢迎给企业网D1Net投稿,投稿邮箱:editor@d1net.com


推荐阅读
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 集成电路企业在进行跨隔离网数据交换时面临着安全性问题,传统的数据交换方式存在安全性堪忧、效率低下等问题。本文以《Ftrans跨网文件安全交换系统》为例,介绍了如何通过丰富的审批流程来满足企业的合规要求,保障数据交换的安全性。 ... [详细]
  • 从Oracle安全移植到国产达梦数据库的DBA实践与攻略
    随着我国对信息安全和自主可控技术的重视,国产数据库在党政机关、军队和大型央企等行业中得到了快速应用。本文介绍了如何降低从Oracle到国产达梦数据库的技术门槛,保障用户现有业务系统投资。具体包括分析待移植系统、确定移植对象、数据迁移、PL/SQL移植、校验移植结果以及应用系统的测试和优化等步骤。同时提供了移植攻略,包括待移植系统分析和准备移植环境的方法。通过本文的实践与攻略,DBA可以更好地完成Oracle安全移植到国产达梦数据库的工作。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 本文详细介绍了云服务器API接口的概念和作用,以及如何使用API接口管理云上资源和开发应用程序。通过创建实例API、调整实例配置API、关闭实例API和退还实例API等功能,可以实现云服务器的创建、配置修改和销毁等操作。对于想要学习云服务器API接口的人来说,本文提供了详细的入门指南和使用方法。如果想进一步了解相关知识或阅读更多相关文章,请关注编程笔记行业资讯频道。 ... [详细]
  • 在重复造轮子的情况下用ProxyServlet反向代理来减少工作量
    像不少公司内部不同团队都会自己研发自己工具产品,当各个产品逐渐成熟,到达了一定的发展瓶颈,同时每个产品都有着自己的入口,用户 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • PHP组合工具以及开发所需的工具
    本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件,包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境,包括推荐的AppServ等版本。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • 如何利用 Myflash 解析 binlog ?
    本文主要介绍了对Myflash的测试,从准备测试环境到利用Myflash解析binl ... [详细]
author-avatar
手机用户2502909293
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有