热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

get起来:现代数据中心服务器维护检查列表

服务器维护可以预防严重问题,并保持一切正常运行。为服务器上的硬件和软件的这些简单筛查预留时间。数据中心服务器只是复杂的机器。像任何机器一样,它们需要定期

服务器维护可以预防严重问题,并保持一切正常运行。为服务器上的硬件和软件的这些简单筛查预留时间。

数据中心服务器只是复杂的机器。像任何机器一样,它们需要定期维护,以达到最佳性能。简单的维护程序可减少严重的服务电话,延长服务器的使用寿命。

即使现代服务器拥有强大性能与丰富功能,增加的工作量整合和可靠性预期可能会对您的业务造成损失。您的服务器维护核对清单应包括物理元素以及系统的关键配置。

坚持常规检查

服务器管理员也经常忽略规划维护窗口。不要等到发生实际的问题,再预留时间进行例行的服务器预防性维护。

维护频率取决于设备的年龄、数据中心环境、需要维护的服务器的数量等因素。例如,位于设备仓库中的较旧设备需要比采用HEPA过滤方式部署的、冷却良好的数据中心中的新服务器更频繁的检查。组织可以根据供应商或第三方提供商例程的日常维护计划,如果供应商的服务合同每四到六个月要求进行系统检查,遵循该日程安排。

准备工作决定一切

在处理服务器维护清单上的项目之前,请先制定计划。这包括检查系统日志中是否包含需要更多直接关注的任何错误或事件。例如,如果系统日志表示特定内存模块的错误,您应该订购一个替换的DIMM并将其安装。同样,如果有固件,操作系统或代理补丁或更新可用,请在维护窗口之前先测试并检查这些补丁。

还需一份明确的将系统脱机并将其返回服务状态的明确计划。在虚拟化技术出现之前,服务器及其驻留应用程序将需要停机以适应维护窗口——通常迫使IT人员在夜间或周末执行维护。虚拟化的服务器支持工作负载迁移,以取代停机时间,因此您可以将应用程序迁移到其他服务器,并且在底层主机系统上发生服务器维护时,将它们保持为可用状态。在服务之前,了解虚拟机应该出现的位置,将虚拟机迁移到所选系统,并确保每个工作负载正在运行,然后再将服务器关闭进行维护。

此时,通常可以关闭服务器并将其从机架或其他机箱中取出。

确保服务器正常运行

一旦服务器脱机时,目视检查其外部和内部气流路径。除去灰尘和其它碎屑能够妨碍冷却空气的任何累积。

从外部空气入口和出口开始检查,随后进入系统机箱,查看CPU散热器和风扇组件,内存模块和所有冷却风扇叶片和风道通道。用清洁、干燥的压缩空气清除适当、静电安全的工作区上的灰尘或碎屑。不要在机架上打扫服务器。

打扫灰尘是一个古老的流程,但这并不意味着它已经过时了。灰尘是一种绝热材料,如何去掉它们的方法非常重要,现在替代的冷却方案和ASHRAE建议已经提高了数据中心的运行温度。灰尘和其他气流障碍物将导致服务器使用更多的能量,甚至会引起本可避免的早期组件故障。

检查本地磁盘

许多服务器依靠内部硬盘进行引导、工作负载启动和存储,用户数据和其他功能。磁盘介质问题严重损害了工作负载的性能和稳定性,往往导致磁盘过早故障。

磁介质不完美。普遍的问题包括扇区损坏和碎片。RAID在存储错误后保持数据完整性有很大的进步,但较小的1U机架式服务器不能提供足够的物理空间来部署磁盘阵列。使用CHKDSK(检查磁盘)实用程序等工具来验证磁盘的完整性,并尝试恢复任何损坏的扇区。Windows Server 2012的更新版本的CHKDSK可以快速分析和修复文件系统结构中的磁盘问题。

只要NTFS和文件分配表或FAT文件系统首先使用磁盘空间可用的集群,磁盘碎片根本不会消失。碎片可能会拖慢服务器的磁盘并导致故障。Windows Server 2012下的Optimize-Volume等实用程序会将每个文件的集群连续排列在磁盘上。

阅读事件日志的详细报告

服务器在事件日志中记录大量信息,特别是有关问题的详细信息。没有仔细检查系统,恶意软件和其他事件日志,没有服务器维护清单完成。当然,关键的系统问题应该立即引发IT管理员和技术人员的关注,但是, 无数的小问题可能预示着长期和严重的问题。

当您查阅日志时,请检查报告设置并验证警报和警报收件人是否正常。例如,如果服务器组有技术人员离职,则需要更新服务器的报告系统。仔细检查联系方式;如果错误发生在工作时间之外,则报告发给技术人员公司电子邮件地址的严重错误可能完全不够用(译者注:非工作时间,技术人员可能无法登陆公司邮箱获取重要的问题报告)。

主动跟日志数据。当日志检查发现长期或重复的问题时,积极的调查可以在问题升级之前进行问题解决。例如,如果服务器的日志报告内存模块中的可恢复性错误,它将不会触发关键警报。但是重复的实例会导致模块出现问题,IT人员可以执行更详细的诊断来识别即将发生的故障。

如果问题不是那么严重,无需关闭服务器,则可以在更换硬件进入之前重新恢复生产状态。

为补丁和更新腾出时间

服务器的软件栈——BIOS、操作系统、虚拟机管理程序、驱动程序、应用程序、支持工具——都必须进行交互和协同工作。不幸的是,软件代码少有精致或无问题的时候,所以这些软件拼图经常被修补或更新,以修复错误、提高安全性、简化互操作性和提高性能。

生产软件不具备自动更新的能力。管理员应确定是否需要修补程序或升级,然后彻底评估和测试更改。如果更新解决的是您服务器没遇到的问题,为何要冒发生其他问题的风险(去修复补丁)?

软件开发人员无法测试硬件和软件的每个潜在组合,因此修补程序和更新可能会导致比修复特定服务器或软件堆栈以外的问题。例如,监控代理补丁可能导致重要工作负载的性能问题,因为新代理所占用的带宽比预期的要多。

向DevOps的转变,更微小和更频繁的更新加剧了潜在的问题。在部署之前,您仍然需要在实验室中测试任何修补程序或更新。并且始终确保您可以撤销更改,并在必要时恢复原始的软件配置。

验证和记录任何的变更

在诸如硬件、软件、系统配置更改的维护窗口中,服务器可能会发生很多事情。完成服务器维护清单后,IT员工必须验证并记录任何新的系统状态。例如,更改网络适配器,添加或更换DIMM,更新操作系统和许多其他操作可能会改变系统的配置。依赖于系统配置管理工具的组织,可能需要更新或“发现”变更—在系统允许恢复使用之前将这些变更记录到配置管理数据库。IT人员可能需要更新任何强制或期望的状态配置状态以允许变更。

还可以验证防火墙设置、防恶意软件版本或扫描频率和入侵检测/防御(IDS/IPS)设置等系统安全性。安全检查可以帮助确保,对系统软件的变更不会无意中暴露在先前配置中可能已关闭的任何攻击路径。

还有,最后,当服务器重新上线运行,不要忘记更新任何系统备份或灾难恢复(DR)内容。除非特别需要调整相关设置以反映服务器的角色变化,验证服务器的备份/DR情况或频率是否保持不变。

本文转自d1net(转载)



推荐阅读
  • 开发网站你需要知晓的部分专用术语
      越来越多的企业和个人都在拥有属于自己的网站门户,首当其冲的就是你得知晓几个网站方面的专业术语,先是中就有好多的客户不明白这些,造成误会是正常的,那不如我们对它有个大致的了解,这样就不容易感觉 ... [详细]
  • etc杂七杂八的配置文件etc不是什么缩写,是andsoon(等等)的意思来源于法语的etcetera翻译成中文就是等等的意思.至于为什么在etc下面存放配置文件& ... [详细]
  • mongodb复制集部署文档 ... [详细]
  • DDOSDDOS的中文名叫分布式拒绝服务***,俗称洪水***DDoS***概念DoS的***方式有很多种,最基本的DoS***就是利用合理的服务请求来 ... [详细]
  • Ubuntu16.0464位安装armlinuxgcc交叉编译器以及samba服务器
    交叉编译器是嵌入式开发的必要工具,但是由于目前大多数人使用64位ubuntu,在照着很多教程做的时候,就会失败,失败原因是64位ubuntu需要额外安装32位的兼容包。以arm-l ... [详细]
  • UDP协议开发
    UDP是用户数据报协议(UserDatagramProtocol,UDP)的简称,其主要作用是将网络数据流量压缩成数据报形式,提供面向事务的简单信息传送服务。与TCP协议不同,UD ... [详细]
  • MQ的使用
    安装环境:linuxredhatactivemq版本:5.8.01.从http:activemq.apache.orgdownload.html地址下载 ... [详细]
  • 泛圈企业云盘:打造高效灵活的协同平台提高企业办公效率
    云计算作为一种新的模式,给企业信息化的发展带来了巨大的变化。其中,企业云盘是一种可以快速被接受的企业云应用,因为在企业云盘存储中,所有云服务带来的风险都会大大降低。将文档管理系统本 ... [详细]
  • 摘要:本文中,我们将进一步理解微服务架构的核心要点和实现原理,为读者的实践提供微服务的设计模式,以期让微服务在读者正在工作的 ... [详细]
  • python基础(二、pycharm安装、卸载)
    3.在Ubuntu中安装PyCharmPyCharm的官方网站地址是:https:www.jetbrains.compycharm注意:安装时不要使用root用户安装,否则后期使用 ... [详细]
  • 贴图的支持及设置:关于贴图分辨率的支持及设置的用户指南
    http:hi.baidu.comdbfr2011818itemeef1eac8df31a2d69744520b贴图分辨率虚幻引擎3支持的贴图分辨率是从1x1到4096x4096 ... [详细]
  • python自学教程哪里好,python比较好的教程
    本文目录一览:1、想学python去哪里比较好? ... [详细]
  • nvmw安装,用于控制node版本;
    之前一直使用的是nodev2.2.0版本,挺说新版本的node解决了npm安装插件产生文件夹结构过深的问题,所以就想更新试试;上网一看才发现,尼玛的node已经到了6.+版本了,好 ... [详细]
  • mysql oneproxy稳定吗_Mysql 中间件 oneProxy总结
    建议使用之前把官方的文档全部通读一遍这里提供一个我的网盘地址oneproxy百度网盘0.先对oneproxy有个大概的了解,知道他所处的位置1.MySQL服务器创建t ... [详细]
  • 互联网世界 9 种基本的商业模式
    互联网世界9种基本的商业模式一个商业模式是运行一个公司的方法;通过该模式的运作,一个公司能维持自己的生存,就是说,能有收益。商业模式意味着一个公司是如何通过在价值链中定位自己,从而获 ... [详细]
author-avatar
凌乱LW_502
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有