2024年6月6日发(作者:)

第39卷 第8期

数字技术与应用

第 39 卷 数字技术与应用

2021年 8月

Digital Technology &Application

Vol.39 No.8

August 2021

应用研究

DOI:10.19695/12-1369.2021.08.21

快照引起虚拟化业务中断的思考

李守龙

(苏州市立医院北区,江苏苏州 215031)

摘要:我院2019年利用VMware vSphere技术建立起多重冗余机制的虚拟化平台。将近百个业务系统迁移到虚拟化平台中

运行,节省成本增强安全性的同时还提高了资源的利用率。2020年一起快照事件引起了整个虚拟化平台故障,导致部分业务中

断数小时。事后进行梳理并总结后,我们对虚拟化的规划及安全有了一些新的思考和想法。

关键词:快照;VMware vSphere;磁盘扩容

中图分类号:TP311.1文献标识码:A文章编号:1007-9416(2021)08-0060-03

0 引言

随着各行各业对信息化的依赖程度越来越高,同时也

对信息化服务的可靠性、安全性、便捷性提出了更高的要

[1]

。虚拟化技术能够在整合资源的同时提高可靠性和安

全性,因此在医疗行业得到了广泛的发展。我院也利用

VMware vSphere虚拟化技术搭建了非核心业务平台,经

过一段时间的使用,虚拟化平台总体稳定、可靠,但是也

存在着一些风险因素。

现故障,系统遵循对应的规则转移失效节点的业务虚拟

机,以免节点失效对业务运行带来影响

[2]

。为了更进一步

加强虚拟化平台的数据保护,采用专业虚拟机和数据库

备份平台对虚拟机和数据库进行定时备份。拓扑结构如

图1所示:

2 事件回顾

某日凌晨4点接到影像系统故障报修,报错信息提示

为数据库连接错误。登录数据库服务器发现有意外断电

事件,手工启动ORACLE服务。PACS系统可以正常登陆,

但无法调取患者影像。初步怀疑网络或存储问题,针对性

的进行虚拟服务器、光纤交换机和影像存储的排查,除了

操作系统有意外重启事件外,没有其他明显异常。通过虚

拟化管理平台(VMware vCenter)发现有物理服务器未响

应情况,而且有大批量的虚拟服务器自动迁移记录,并且

每隔20分钟就有一台物理主机发生未响应情况,最终集

群中所有物理主机均发生未响应情况,包括虚拟化管理

平台在内的所有业务中断,启动应急预案。

进入机房查看硬件设备,发现物理主机处于宕机状

1 我院虚拟化平台基础架构

我院虚拟化平台采用VMware vSphere产品构建,并

与微分段分布式防火墙结合增强虚拟化平台安全防护措

施。底层架构中各虚拟化主机基于FC SAN存储交换机与

存储连接,存储设备自身采用双活架构的方式与虚拟化

平台结合,保证底层存储和上层虚拟机的高可用性。服务

器端的管理与业务网络基于低延迟的万兆光交换机接

入,保证了整体网络环境的带宽传输性能与效率。服务器

操作系统使用ESXi 6.7,使用VCSA 6.7集中管理主机

与集群。虚拟化集群启用故障转移功能当某一个节点出

图1 拓扑结构图

Fig.1 Topological structure diagram

收稿日期:2021-05-27

作者简介:李守龙(1985—),男,江苏连云港人,本科,工程师,研究方向:信息安全。

60

Copyright©博看网 . All Rights Reserved.

李守龙:快照引起虚拟化业务中断的思考

2021年第 8 期

态,立即逐一进行重启操作,业务逐个得到恢复。密切关

注虚拟化管理平台动态,物理主机未响应情况再次出

现,每隔一定时间就有几个业务系统受到影响。最终通

过不断的观察和分析发现是因为物理主机CPU资源耗

尽而导致了宕机。故障发生后故障转移机制发挥作用,

把宕机的物理主机上的虚拟服务器自动迁移到集群中

的其他主机,进而引起其他主机的CUP资源的耗尽,直

至集群中所有主机宕机。经讨论决定同时开启所有物理

主机,锁定第1台宕机的物理主机,分析运行在其上的虚

拟服务器,逐一关闭这些虚拟服务器,找出有嫌疑的虚

拟机。经过验证发现承载体检业务的虚拟服务器有重大

嫌疑,立刻将体检系统划分到一个新的集群中,同其他

业务分开,独享一个集群资源,并对资源进行阈值限定,

等同于对该虚拟服务器进行隔离,该集群中的故障不会

转移到其他集群。

至此其他集群中的主机未再出现宕机情况,除Pacs系

统外的其他业务均得到了恢复。Pacs系统虚拟服务器因发

生自动迁移导致注册和授权信息不一致,应用程序无法

启动提供服务,紧急联系厂商进行总部授权,耗费约3小

时,虽然启动了应急预案,但是未达到满意的预期。

体检集群中物理主机仍然循环宕机,体检业务系统无

法使用,着手新建虚拟服务器并搭建软件运行环境及数

据恢复,预计耗时5小时。同时仍然不放弃问题的排查,基

本排除病毒、木马、网络问题等原因,重点进行虚拟化平

台和虚拟服务器的检查,通过对比分析区别于其他虚拟

服务器的是该虚拟机上存在快照。快照是虚拟服务器的

备份文件,用于虚拟服务器出现故障时快速还原到快照

建立的时间点。为了尽快排查到问题将快照删除,删除后

集群中主机未再发生宕机,故障得到修复,解除所有应急

预案,组织科室人员进行应急期间的数据处理。

之后所有业务运行正常,信息科对快照事件进行追

溯。事件发生前一日在日常巡检中发现体检系统虚拟服

务器磁盘空间需要扩容,向服务提供商提出进行磁盘扩

容。工程师在当日夜间23时进行磁盘空间的扩容,扩容完

成后为确保安全对虚拟服务器建立了快照,次日凌晨出

现本次事件。

事件发生一周后在测试环境中无论是对克隆的体检

业务虚拟服务器,还是对新建的虚拟服务器进行磁盘扩

容和建立快照,均未能复现当时的故障。总结本次事件原

因为:虚拟服务器磁盘空间扩容后建立了快照,快照的存

在引发了虚拟化软件的某项BUG。未在相关文献中查到

类似问题,定性本次事件是快照引起的偶发意外事件,未

对相关公司、人员进行追责。

3 事件思考

(1)信息系统难免发生故障,为了第一时间能作出高

效、有序应急响应,各单位都会制定自己的应急预案。应

急预案是紧急情况下的行动指南,对医疗秩序的维持发

挥着至关重要的作用。因此应急预案的制定要有多部门

的参与,并充分考虑各种情况,有依有据、切实可行。预案

完成后要进行相应的培训和多部门演练,根据演练情况

不断改善和改进流程,才能在灾难发生时从容应对,最大

程度的减少对患者和医护人员的影响,保障正常的就医

秩序。一旦应急预案启动各部门要执行预案,不得以系统

故障为由,推辞患者,损害患者就医权利。

(2)在虚拟化建中要从各个方面整体、充分考虑安全

性。我们在建设中多注重对硬件故障的保障,忽视了软件

层面的问题。通常情况下,网络安全设备和审计系统均部

署于物理服务器的外部,无法过滤物理主机上各虚拟服

务器的外部,无法过滤物理主机上各虚拟服务器之间的

通信数据,这样就会产生安全隐患

[3]

。需要考虑和虚拟化

相结合、针对性的软硬件安全产品。虚拟化平台本身是高

级服务器管理软件,是软件一定存在漏洞,如近期发现的

VMware vSphere Server远程代码执行漏洞,同操作系

统一样要定期升级版本和更新补丁,保障虚拟化本身的

安全性和稳定性。

(3)虚拟化的管理不能完全依赖服务提供商,培养日常

运维的队伍尤其重要。只有日常的运维加上服务商的定

期专业化巡检才能最大程度的保障平台安全。同时虚拟

化平台权限要细化,不同人员按级别分配不同的管理权

限,一定程度上可以减少误操作的发生。内、外部运维要

通过堡垒机进行实施,所有实施都要有电子化的记录,便

于事件追溯和事后分析。虚拟化平台是一个整体性的平

台,日常运维和升级都可能影响到业务系统的使用,因此

可能影响业务系统运行的操作要审批、备案,经科室同意

并在有回退方案和应急预案的情况下,方能进行相应的

调整。

(4)机房中虚拟化相关的(交换、存储、服务器)设备标识

要准确、简明扼要,并张贴在设备显著位置,一旦监测到

虚拟化设备故障可以快速定位。可以把虚拟化拓扑结构

张贴在运维区域,也可以把物理主机上运行的虚拟服务

器标识在主机上,定期进行相关信息的更新,做到对虚拟

资产的掌控,运维也更加的便捷。

61

Copyright©博看网 . All Rights Reserved.

第 39 卷 数字技术与应用

(5)所有资源划分在一个集群中,在抵抗硬件故障上优

势明显,理论上在N-1台服务器同时故障的情况下依然

可以保障服务的可用性,但在特殊情况下可能会引起整

个虚拟化平台的不稳定。通过本次事件我们重新审视资

源的分配问题,根据业务系统划分不同的集群。集群划分

时尽量选择同品牌型号的物理主机,可以在一定程度上

避免虚拟服务器故障转移中出现业务系统授权信息不一

致导致的不可用问题。每个集群中要有4台以上的物理主

机,要有紧急程度不一的信息系统,尽量避免两个及以上

重要业务系统在同一个集群中,避免主备虚拟服务器在

同一个集群中。

(6)虚拟化的技术越来越成熟完善,在故障发生时会按

照一定策略进行故障的转移,保障虚拟服务器的可用性。

虚拟服务器的可用不意味着业务的持续。不同的厂商在

部署应用时均有自己的加密机制,发生故障转移后,物理

主机的不同可能会导致软件厂商识别到未授权的部署,

从而导致系统无法提供服务。重新授权往往耗费时间长,

对医疗业务的影响大。可以通过测试环境手动迁移虚拟

服务器进行授权问题检查,如果出现相应问题需要和厂

商一起制定一套备用授权机制,以备紧急情况下的临时

使用。

(7)及时更新操作系统补丁可以增强安全性,避免漏洞

被恶意利用。本次事件中有10台以上运行Windows Server

2008 R2操作系统的虚拟服务器无法引导进入操作系统,

为当日事件雪上加霜。原因均为未进行补丁测试就进行

了补丁的更新,并在更新后未进行重启操作。吸取本次教

训,更正补丁策略,不再集中进行补丁的更新。划分各种

版本操作系统虚拟服务器,专用于补丁更新测试。测试通

过后制定更新计划,分批分类进行更新,更新后制定重启

计划,逐台进行重启验证。新建虚拟服务器不再使用官方

已停止更新的版本,有计划的对正在使用的老旧操作系

统进升级,保障操作系统的安全性和可靠性。

4 结语

随着医院的信息化程度越来越高,临床业务也越来越

依赖信息系统,信息系统的安全和稳定关系民生。一旦发

生安全事件,经济损失事小,给患者和社会带来的负面影

响事大。虚拟化平台相比传统的服务器模式有着安全优

势,作为医疗信息行业的从业者,我们不能麻痹大意,要

从各种事件中吸取教训,优化各种安全策略,保障安全事

件不发生或发生后有快速的应急或恢复措施。

参考文献

[1] 江璜.基于VMware vSphere的虚拟化资源池应用研究[J].软件

工程,2020(3):32-34.

[2] 刘勇.基于VMware vSphere技术的集群化管理系统搭建构想

分析[J].无线互联科技,2019(24):43-44.

[3] 刘许刚,赵海燕,刘向阳.服务器虚拟化安全风险及防范[J].信息

系统工程,2020(4):60-61.

Thinking about Snapshot Causing Business Interruption of Virtualization

LI Shou-long

(Suzhou Municipal Hospital North Area, Suzhou Jiangsu 215031)

Abstract:Our hospital used VMware vSphere technology to establish a virtualization platform with multiple redundancy mechanisms

in 2019. Nearly a hundred business systems migrated to this virtualized platform to run, saving money and enhancing security while

increasing resource utilization. A snapshot incident in 2020 caused the entire virtualization platform to fail, causing some business

outages for several hours. After combing and summarizing, we have some new ideas and ideas about virtualization planning and

security.

Key words:Snapshot; VMware vSphere; Disk expansion

62

Copyright©博看网 . All Rights Reserved.