为了有效地维护服务器,服务器管理员必须执行主动的硬件和软件检查。而服务器的维护清单必须包括除尘、日志查看、软件补丁程序测试等。
制定维护程序
维护频率取决于服务器设备的使用年限、数据中心和需要维护的服务器数量。例如,与部署在高效微粒空气过滤、冷却良好的数据中心中的新服务器相比,位于设备柜中的老旧服务器需要更频繁的检查。
为准备停机做好准备
解决服务器维护清单上的项目之前,首先需要制定计划。这包括检查系统日志中是否有需要更加直接关注的错误或事件。如果系统日志表明特定内存模块有错误,则应订购替换的双列直插式内存(DIMM)并将其安装。同样,如果有可用的固件、操作系统或代理补丁/更新,请在计划的维护窗口之前先进行测试和审查。
检查气流路径
在服务器宕机之后,需要目视检查其外部和内部气流路径。清除所有可能阻碍冷却空气的积尘和碎屑。
从外部空气入口和出口开始,然后进入系统机箱,查看CPU散热器和风扇部件、内存,以及所有冷却风扇叶片和风道。从机架上卸下服务器之后,需要确保服务器清洁。采用干净、干燥的压缩空气清除防静电工作区上的灰尘或碎屑。
灰尘和其他气流障碍会导致服务器消耗更多的能量,甚至可能导致组件故障。
检查本地硬盘
服务器依靠内部硬盘进行引导、工作负载启动和存储以及用户数据。磁盘介质问题损害了工作负载的性能和稳定性,并导致硬盘过早故障。使用“检查硬盘”实用程序之类的工具来验证硬盘的完整性,并尝试恢复硬盘上的任何坏的扇区。
采用磁性媒质的硬盘并不完美。其常见的问题包括损坏扇区和碎片化。在发生存储错误后,RAID在保持数据完整性方面有很大的进步,但体积较小的1U机架服务器无法提供足够的物理空间来部署硬盘阵列。
验证日志数据和事件
服务器在事件日志中记录了大量的事件信息。没有仔细检查系统、恶意软件和其他事件日志,没有服务器维护清单是不完整的。
在检查日志时,管理员应检查报告设置并验证正确的警报和警报接收者。例如在检查日志时,管理员应检查报告设置,并验证正确的警报和警报接收者。
当日志检查发现长期或重复出现的问题时,主动调查可以在问题升级之前解决问题。如果服务器的日志报告内存中的可恢复错误,它将不会触发严重警报。但是,如果有重复的情况表明模块出现问题,则管理员可以执行更详细的分析,以识别即将发生的故障。
如果问题不够严重,不会关闭服务器,管理员可以将服务器恢复到生产状态,直到出现替换硬件。
记录所有系统更改
在维护时段内,服务器可能会发生很多事情,例如硬件、软件或系统配置更改。服务器管理员完成服务器维护清单后,对他们进行仔细检查并记录所有新系统状态至关重要。例如,更改网络适配器、添加或更换内存或更新操作系统会更改系统的配置。
转载请注明:IT运维空间 » 运维技术 » 服务器维护需要做哪些准备工作,具体步骤详解
发表评论