2024年6月2日发(作者:)
责任编辑:张碧薇 投稿信箱:netadmin@
故障诊断与处理
Trouble Shooting
解决VMware vSAN分区故障
■ 河北 王春海
在VMware
编者按:在VMware vSAN群集中最怕的是“主机分区”。
是172.18.93.
vSAN群集中,不
当出现分区时,vSAN存储会部分或全部不能使用,导
41)。
用怕一个主机掉
致虚拟机不能启动或正在运行的虚拟机死机。本文就
1.使用
线或死机,也不
vSAN的分区现象出现的原因及解决方法进行介绍。
vSphere Web
怕单独一个磁盘Client登录
组损坏,更不怕单vCenter,依次检查
独一个硬盘损坏,每台主机的“配置→
最怕的是“主机分网络→VMkernel适
区”。当出现分区时,配器”,查看vSAN流
vSAN存储会部分或量的VMkernel的IP
全部不能使用,导地址以及是否启用
致虚拟机不能启动vSAN流量。
或正在运行的虚拟
图1 某4节点vSAN群集拓扑图
2.检查每台主
机死机。机配置正确之后,使
VMware vSAN群集出现
检查vSAN网络
用SSH工具登录到其中一台
分区的主要原因有:
要检查vSAN分区问题,
主机(例如172.18.96.41),
1.网络问题:这些问题
需要先了解vSAN群集节点
使用esxcli vsan network
包括vSAN节点主机之间,
主机数量,知道每个节点的
list命令查看启用vSAN流
vSAN流量网卡网络不通;
管理IP地址、vSAN流量IP
量的网卡。
vSAN见证主机,vSAN见证流
地址,最好是根据拓扑图检
3.使用“esxcli network
量网络不通,或vSAN数据流
查。例如图1所示为某4节
ip interface ipv4 get”命
量网络中断。
点vSAN群集的拓扑,本文以
令查看当前主机IP地址配
2.版本问题:vSAN见证
该拓扑为例进行介绍。
置,得知当前主机有两个IP
虚拟机版本与vSAN节点主
根据拓扑图,记住vSAN
地址,分别是172.18.96.41
机版本不一致,主要是vSAN
群集中每个主机的管理地
(管理地址)、172.18.93.141
见证虚拟机版本低于vSAN
址(例如ESXi41的管理地
(vSAN流量地址)。
节点主机版本。
址是172.18.96.41)、vSAN
4.检查到其他主机管理
3.存储提供程序脱机。
流量VMkernel的IP地址
端口的连通性,使用Ping命
下面通过具体实例介绍。
(例如ESXi41的vSAN地址
令,依次Ping其他主机管理
2018.10
147
Trouble Shooting
故障诊断与处理
责任编辑:张碧薇 投稿信箱:netadmin@
地址,例如:这种类型的vSAN
ping 172.18. 群集中,在图形界
96.42面中不能检查vSAN
ping 172.18. 见证流量配置在哪
96.43一个VMkernel上,
ping 172.18. 需要使用ssh登录
96.44
图2 某2节点延伸群集主机情况
到节点主机检查。
5.检查到其他本文以图2所示为
主机vSAN流量的连
管理VMkernel网络适配器
例进行介绍。
通性,使用Ping命令,依次
配置为支持见证流量,该
该vSAN延伸群集
Ping其他主机vSAN流量地
命令要求在图形界面中为
的两个节点主机管理地
址,例如:
VMkernel网络启用vSAN流
址分别是10.66.64.28、
ping 172.18.93.142
量服务,该命令将vSAN流量
10.66.64.29;对应的vSAN
ping 172.18.93.143
设置为见证流量。
流量地址是172.31.255.28、
ping 172.18.93.144
esxcli vsan network
172.31.255.29;见证主机
6.如果第(4)、(5)两步
ip set -i vmk0 -T=witness
管理地址为10.66.64.24,
全部连通,访问正常,表示
如果未在图形界面
vSAN流量IP地址是
vSAN分组不是由于网络问
中将VMkernel网络启用
10.66.64.34。
题造成的,需要检查其他原
vSAN流量服务,可以直接为
1.在“配置→vSAN→磁
因。如果到某台主机的管理
VMkernel增加vSAN见证流
盘管理”中检查到见证主机
流量或vSAN流量不通,则检
量,命令如下:
在组1,2台节点主机在组2。
查该主机的配置或网线连接
esxcli vsan network
2.在“监控→vSAN→
情况。也可以使用ssh登录
ip add -i vmk0 -T=witnes
运行状况”测试失败,提示
该主机(网络或vSAN流量不
最后,可以使用“esxcli
“vSAN群集分区”。
通)做进一步的检查。
vsan network list”命令验
3.使用ssh登录
如果配置无误,在vSAN
证新网络配置,命令如下:
10.66.64.28主机,执行
群集的“配置→vSAN→磁盘
esxcli vsan network
“esxcli vsan network
管理”中,可以看到所有主机
list
list”命令查看启用vSAN流
都在“组1”。量的网卡,通过命令查看得
vSAN延伸群集网络检查
知vmk0为vSAN见证流量网
vSAN流量配置相关命令
对于2节点直连的vSAN
卡,vmk1为vSAN流量网卡。
使用“esxcli vsan
延伸群集,其vSAN见证流量
4.使用“esxcli
network ip set”命令将
与vSAN数据流量相分离,在
network ip interface
148
2018.10
责任编辑:张碧薇 投稿信箱:netadmin@
故障诊断与处理
Trouble Shooting
ipv4 get”命令查看的故障解决。
当前主机IP地址配
置。vmk0的IP地
主机配置不一致造
址是10.66.64.28
成的分区
(vSAN见证流量),如果是全新组建
vmk1的IP地址的标准VMware vSAN
是172.31.255.28群集,出现分区现象
(vSAN流量)。一般是网络问题。如
5.使用Ping命果是2节点直通的
令Ping另一节点主
图3 5节点vSAN群集
vSAN群集,出现分
机的vSAN流量地址区现象一般是版本、
(172.31.255.29)、Ping见
集”中单击“更改见证主机”,
存储提供程序脱机或网络问
证虚拟机的vSAN流量地址
将见证主机改为新部署的见
题。如果是已配置好了vSAN
10.66.64.34,都能Ping通。
证设备即可。
群集,新增加的节点主机与
此检查表示vSAN分区不是
通常情况下更改了见证
原有的主机出现分区现象,
由网络问题引起的。
虚拟机之后,即可解决vSAN
则可使用vSAN工具修复。
6.在vSphere Web
群集分区问题。但更改见证
下面通过具体实例介绍。
Client管理控制台,在“监
主机之后,经过检查发现仍
在图3中,最初
控→vSAN→运行状况”中,
然存在分区现象。
ESXi01~ESXi04共4台主机
经过检查出现“软件版本兼
在vSphere Web Client
组成vSAN群集,其管理地址分
容性”的失败信息,提示升级
控制台中,左侧单击vCenter
别是202.206.195.91~202.
主机的ESXi软件。
Server的名称,在“配置→
206.195.94,其vSAN流
7.检查节点主机、见证
存储提供程序”中,发现新添
量地址分别为192.168.
虚拟机的ESXi版本,发现见
加的10.66.64.24的见证虚
11.91~192.168.11.94;后
证虚拟机的版本较低。
拟机为 “脱机”状态。
来添加了ESXi05到vSAN群
经过分析,是用户升级了
选中状态为脱机的
集中,在配置了管理地址
ESXi主机但未升级见证虚
10.66.64.24的见证虚拟机,
202.206.195.95及vSAN流
拟机,导致了vSAN群集出现
单击“X”取消注册选中的储
量的VMkernel的IP地址
分区。知道问题原因之后,
提供程序,然后单击
192.168.11.95后,出现分区。
故障解决就比较简单了。部
“”按钮将所有存储提供程
对于出现的vSAN群集
署一台与ESXi节点主机同
序与环境的当前状态同步,
分区现象,在检查新添加的
版本的见证虚拟机,在“配置
等脱机的存储提供程序状态
vSAN节点主机的网络连接,
→vSAN→故障域和延伸群
为“联机”后,vSAN群集分区
并且使用
【下转第150页】
2018.10
149
Trouble Shooting
故障诊断与处理
责任编辑:张碧薇 投稿信箱:netadmin@
巧解路由烦恼
■ 山东 申景广 何钰
路由是指路
编者按:笔者单位某专线终端采集器IP地址可以Ping
大面积故障,得
由器从一个接口
通,但是数据采集不上来,经过对网路拓扑结构的分析,
知这一信息后。
上收到数据包,
将故障定位在了路由的匹配上。经过对静态路由子网掩
我们立即着手
根据数据路由包
码的修改,完成了对故障的排除。
开始排查。
的目的地址进行
定向,并转发到另一个接口
故障分析
的过程。路由器在查看路由
首先通过监控大屏,对
表时会遵循最长匹配的原
电力抄表的网管模块进行查
则,即掩码最长的那条路由。
看,并没有发现异常。该专
笔者单位的某专线业务出现
线网络拓扑结构如图1所示。
故障,具体的故障现象是终
从图1可以看到,位于末
端采集器IP地址可以Ping
端的信息采集器设备,通过
通,但是数据采集不上来,经
我们的EPON网络将数据传
过对网路拓扑结构的分析,
输至电业局核心交换机,在
使用ping、tracert、show等
图1 电力远程抄表的组网拓扑
电业局和我方基站机房之间
命令将故障定位在了路由的
部署了互联路由器,该路由
匹配上。经过对静态路由子
故障现象
器主要用于路由的转发,并
网掩码的修改,完成了对故
近日,有同事反映国家
在网络中起到一定的安全防
障的排除。
电网的电力抄表业务出现
范作用。
【上接第149页】
ssh登录到提示,并在分区列表中显示了加的vSAN节点主机)的网络
节点主机,使用Ping等命令分区主机名称及分区情况。配置未同步,单击“修复不一
检查后,发现分区不是由于在“群集→vCenter状致的配置”按钮。在弹出的
网络问题引发的。态具有权威性”检查失败,单“确认-更新ESXi配置”对
在导航器左侧选中vSAN击“更新ESXi配置”按钮,话框中,单击“是”按钮。
群集(本示例中vSAN群更新ESXi主机成员资格。更新之后,再次返回到
集名称为JGZX),在“监控在“群集→vSAN群“配置→磁盘管理”中,可以
→vSAN→运行状况”中,发集配置一致性”中,提示看到所有vSAN主机牌“组
现“失败 vSAN群集分区”的202.206.195.95(这是新添
1”,分区问题解决。
N
150
2018.10
发布评论