2024年6月15日发(作者:)

服务器故障应急预案

有关应急预案

1服务器硬件故障应急预案

(1) 核心服务器双机配置,配置好备用服务器,随时待命。

(2) 发生服务器硬件故障后,相关人员应及时查找、确定故障原因,进行先

期处置。若故障服务器在短时间内无法修复, 相关人员应启动备用服务器,保持 局域网系统的正常运行;将

故障服务器脱离网络,进行故障排除工作。

2服务器软件系统故障应急预案

(1) 做好服务器软件系统的定时备份,系统崩溃后,能够及时恢复系统。

(2) 发生服务器软件系统故障后,相关人员应检查出现故障的原因并尽快排 除。

(3) 如遇服务器系统崩溃,应启用备份系统进行恢复。

服务器硬件故障预防与排除

1故障预防

准备相应的应急备用服务器。当服务器出现不可恢复的硬件故障时,马上启 动备用服务器,从而减小服务器

硬件故障风险。

2故障排除

当服务器出现硬件故障,通过以下步骤排除:

(1)

硬件。

确定故障原因。依次查看电源、硬盘、内存、主板、处理器等,如条件 许可,可使用替换法检测各

(2) 恢复固件缺省配置。比如去除第三方厂商备件和非标配备件;活除 CMOS,恢复资源初始配置。

3、故障处理

(1) 硬盘故障处理:当硬盘出现黄灯提示预警时,应先查看硬盘数据是否 丢失,如数据存在应先做好

数据备份,将此服务器各应用迅速转移,然后排查报 警具体原因,如由于错误操作或硬盘连接不好引起的报警,

可尝试重启服务器,

重新插拔硬盘等操作即可解决问题。如硬盘损坏,应及时将备用硬盘替换下故障 硬盘,使服务器恢复正常工

作。排查过程中,如不能正确判断问题原因,不能随 便操作,可向旧M售后服务咨询处理。

(2) 内存故障:由于我们的服务器有多组内存,单条内存故障时,会对服 务器性能稍有影响,当不会

影响整体使用,所以如发现内存条损坏时,安排时间 将损坏的内存条替换掉即可

(3) RAID卡故障:服务器的RAID卡出现故障时,系统会无法识别出硬 盘,服务器不能正常使用,所

以应第一时间启动备用服务器。 将故障服务器移出 生产网络后更换RAID卡,RAID卡通过硬盘重新读取 RAID

配置信息后即可恢 复使用!

(4) 电源故障:现阶段我们的服务器都是单电,如果电源故障会使服务器

完全瘫痪,预计将服务器都升级双电,这样在一个电源故障时,才有充足的时间 将故障电源替换掉,从而减小电

源故障对服务器的影响。

(5) CPU故障:我们的服务器多

为双

CPU,所以在CPU故障时同内存一 样,只会对服务器性能有所影

响,不会影响整体使用,所以及时安排时间将有问 题的CPU换掉即可。

(6) 网卡故障:启用本机备用网卡,顶替故障网卡。

服务器软件故障预防与排除

故障预防

1. 服务器初始状态备份

安装配置好服务器软件系统,经测试能够正常投入生产使用后,用 GHOST

软件备份好服务器系统。备份文件本机一份,光盘或移动存储一份。

2故障排除

服务器软件系统出现故障,先对服务器系统查蠹,升级相关系统软件,若故

障依然存在,通过以下步骤排除:

(1) 用备份系统还原服务器系统。GHOST文件还原服务器系统的初始状态, 进入“目录服务还原模式”

还原系统实时状态。