2023年11月27日发(作者:)
网管技术 解决DNS故障引发子网流量异常 电脑资料
客户来电中心主网络那么根本正常,而一个子网突然变慢,
铁通的维护人员自行进行了网络排错可惜没有找到故障所在,由于
不能断开网络停止用户效劳来进行检查,于是求助于我们,本人被
派出诊。应该说,从病症上看这个故障比拟简单,只要查出子网的
路由流量就可以很快确定故障方向,进一步那么立即可以查出流量
源。
从网络拓扑图上看,故障子网与中心网络为E1链路。故障子网下面
有一个营业厅,一般只与中心网络交互一些业务数据应该不会有太
大的流量。此外,该子网下的Web效劳器数量为45台,中心的网管
系统报告97%的流量肯定是过高的。
笔者考虑只有一种情况可以比拟多地占用E1通道的有效流量,那就
是故障子网下的网站与中心网络的网站或效劳器之间有多媒体文档
的传输或者下载业务才会造成这种情况。不过询问人员得知中心网
络并不提供诸如多媒体视频的播放和下载效劳,那只能借助工具进
行检测了。
由于故障网络规模比拟小,中心网络的网管系统只支持到路由器一
级的管理,交换机和效劳器等采用的是廉价的桌面交换机,所以无
法支持网络管理。将网络测试仪接入交换机进行测试,启动便携网
管功能,可以看到路由器的流量和网管系统观测的到的流量是相同
的,均为97%左右。
查看中心网络处与此相连的路由器流量,也是997%左右,这说明路
由器通道链路性能根本正常。不过这样高的通道流量必然导致路由
器拥塞和丢包,所以从流量的角度看又是不正常的。现在需要了解
的是,如此高的路由流量是从哪里来的,以及数据包到达路由器以
后的去向等。这样就可以很快定位导致如此之高的通道流量的数据
源和拥塞源。
将网络流量分析仪接入网络的路由器通道进行监测和分析,结果显
示95%流量流向了业务数据效劳器,且多数为和Email方面应用。
其中,Inter访问流量占88%,本地流量占7%。查看流量分析仪指
示的流量分布图,没有发现集中的流量应用,IP地址分布比拟均衡,
最高的流量只占0.5%。这些数据说明,用户的应用比例均衡,故障
原因应该在应用过程中而不是某个集中的用户“轰击”比方 等。也
就是说,应该是应用的过程和通道出了问题。其原因是这些流量按
通道设计不应该到达营业厅网络的业务效劳器,而是应该直接从中
心网络的Inter主路由器进入互联网。那么,这些流量是如何被引
导到营业厅效劳器方向上来的呢?
下面我们进行进一步的分析,大家知道IP数据包在传输过程中会在
路由器中作地址解析(ARP),或是在本地DNS中进行域名分析。如果
这些分析路径出问题,那么IP数据包的传输和交换就会出问题,
由此,可以重点检查主路由器的路由表和DNS的转换表。由于多数
Inter访问流量被引导到了营业厅业务效劳器,所以可以重点检查
DNS效劳器。用网络测试仪对DNS效劳器做查询,观察查询结果,
发现DNS转换表有相当大的比例指向了营业厅子网中的业务效劳器。
笔者疑心是DNS效劳器出了问题!
于是通知中心网络的网管人员将DNS效劳器重新启动并快速设置一
次,稍后网络管理人员报告网络业务恢复正常。用网络测试仪的
Inter工具包查询DNS效劳器,可以看到指向营业厅业务效劳器的
数据已经全部消失,这说明网络已经完全恢复了正常工作。但好景
不长,约3分钟后,故障重新出现,仍有97%的通道流量被指向了
子网。
由于DNS效劳器只设置了一台,没有备份或备用效劳器,于是不得
不立即来到中心网络机房,对DNS效劳器及其周围设备进行检查。
测试效劳器网卡和与路由器的电缆正常。为了不中断效劳,笔者让
网管人员在另一台备用效劳器上临时安装设置了DNS效劳器。经过
短暂的业务中断后,更换上的新DNS效劳器开始投入适用。只见子
网路由器的流量立刻降低到了1.5%。经过30分钟的稳定工作后,
所有用户均恢复到正常工作状态,故障消除。
大家知道,DNS效劳器用于将用户域名转换为IP地址,一般来说不
会出现什么问题。但由于某些原因,造成了类似本例的中转换地址
统统指向了营业厅子网的业务效劳器。业务效劳器不具备路由处理
功能,对发送来的IP数据包要么拒收并置之不理,要么返回目标不
可达或需要重定向的报告数据包。这就是我们在ICMP监测时经常观
察到的现象。
本地铁通的用户数量并不多,而且与上级网络的链路带宽为155M的
ATM链路,大有充裕,所以上Inter的用户其上网速度主要受子网
带宽的影响。因为许多的用户要经过拥挤的无效E1链路,造成路由
重定向和严重的时延。大量的IP数据包拥向只有2M带宽的子网路
由器,流量到达了97%,造成子网工作速度突然变慢,路由器出现
严重拥塞等现象。
基为了防止DNS效劳不稳定造成业务中断或出错,不少网管人员在
设置DNS效劳器时都安装了备用DNS效劳器,亦即安装不只一台
DNS效劳器。但这样做也会带来一个潜在的危险,即主DNS效劳器
出问题,备用自动效劳器投入运行,这样会牺牲一定的网络带宽,
使得系统总体性能有所下降。危险在于,性能的下降常常是在不知
不觉中来到的。所以,为了保证网络经常处于良好的工作状态,网
络管理人员需要定期检查DNS效劳器的转换表。
本故障中的DNS指向错误导致用户的IP数据包对准了子网效劳器,
但如果对准的不是效劳器而是中心网络本地网段中的某台机器,那
么故障强度会减弱,用户不会感到非常明显的速度变慢。这样可能
不会感到明显的“身体不适”从而使得网络长期带病运行。就象人
一样,定期的体检对及时发现疾病及其隐患是非常必要的。而如何
及时发现路由优化方面的问题,也是网络定期工程测试中的内容之
一,对大型网络那么更有必要,必须坚持定期维护和测试。
发布评论