2023年11月27日发(作者:)

网管技术 解决DNS故障引发子网流量异常 电脑资料

客户来电中心主网络那么根本正常,而一个子网突然变慢,

铁通的维护人员自行进行了网络排错可惜没有找到故障所在,由于

不能断开网络停止用户效劳来进行检查,于是求助于我们,本人被

派出诊。应该说,从病症上看这个故障比拟简单,只要查出子网的

路由流量就可以很快确定故障方向,进一步那么立即可以查出流量

源。

从网络拓扑图上看,故障子网与中心网络为E1链路。故障子网下面

有一个营业厅,一般只与中心网络交互一些业务数据应该不会有太

大的流量。此外,该子网下的Web效劳器数量为45台,中心的网管

系统报告97%的流量肯定是过高的。

笔者考虑只有一种情况可以比拟多地占用E1通道的有效流量,那就

是故障子网下的网站与中心网络的网站或效劳器之间有多媒体文档

的传输或者下载业务才会造成这种情况。不过询问人员得知中心网

络并不提供诸如多媒体视频的播放和下载效劳,那只能借助工具进

行检测了。

由于故障网络规模比拟小,中心网络的网管系统只支持到路由器一

级的管理,交换机和效劳器等采用的是廉价的桌面交换机,所以无

法支持网络管理。将网络测试仪接入交换机进行测试,启动便携网

管功能,可以看到路由器的流量和网管系统观测的到的流量是相同

的,均为97%左右。

查看中心网络处与此相连的路由器流量,也是997%左右,这说明路

由器通道链路性能根本正常。不过这样高的通道流量必然导致路由

器拥塞和丢包,所以从流量的角度看又是不正常的。现在需要了解

的是,如此高的路由流量是从哪里来的,以及数据包到达路由器以

后的去向等。这样就可以很快定位导致如此之高的通道流量的数据

源和拥塞源。

将网络流量分析仪接入网络的路由器通道进行监测和分析,结果显

95%流量流向了业务数据效劳器,且多数为和Email方面应用。

其中,Inter访问流量占88%,本地流量占7%。查看流量分析仪指

示的流量分布图,没有发现集中的流量应用,IP地址分布比拟均衡,

最高的流量只占0.5%。这些数据说明,用户的应用比例均衡,故障

原因应该在应用过程中而不是某个集中的用户“轰击”比方 等。也

就是说,应该是应用的过程和通道出了问题。其原因是这些流量按

通道设计不应该到达营业厅网络的业务效劳器,而是应该直接从中

心网络的Inter主路由器进入互联网。那么,这些流量是如何被引

导到营业厅效劳器方向上来的呢?

下面我们进行进一步的分析,大家知道IP数据包在传输过程中会在

路由器中作地址解析(ARP),或是在本地DNS中进行域名分析。如果

这些分析路径出问题,那么IP数据包的传输和交换就会出问题,

由此,可以重点检查主路由器的路由表和DNS的转换表。由于多数

Inter访问流量被引导到了营业厅业务效劳器,所以可以重点检查

DNS效劳器。用网络测试仪对DNS效劳器做查询,观察查询结果,

发现DNS转换表有相当大的比例指向了营业厅子网中的业务效劳器。

笔者疑心是DNS效劳器出了问题!

于是通知中心网络的网管人员将DNS效劳器重新启动并快速设置一

次,稍后网络管理人员报告网络业务恢复正常。用网络测试仪的

Inter工具包查询DNS效劳器,可以看到指向营业厅业务效劳器的

数据已经全部消失,这说明网络已经完全恢复了正常工作。但好景

不长,约3分钟后,故障重新出现,仍有97%的通道流量被指向了

子网。

由于DNS效劳器只设置了一台,没有备份或备用效劳器,于是不得

不立即来到中心网络机房,对DNS效劳器及其周围设备进行检查。

测试效劳器网卡和与路由器的电缆正常。为了不中断效劳,笔者让

网管人员在另一台备用效劳器上临时安装设置了DNS效劳器。经过

短暂的业务中断后,更换上的新DNS效劳器开始投入适用。只见子

网路由器的流量立刻降低到了1.5%。经过30分钟的稳定工作后,

所有用户均恢复到正常工作状态,故障消除。

大家知道,DNS效劳器用于将用户域名转换为IP地址,一般来说不

会出现什么问题。但由于某些原因,造成了类似本例的中转换地址

统统指向了营业厅子网的业务效劳器。业务效劳器不具备路由处理

功能,对发送来的IP数据包要么拒收并置之不理,要么返回目标不

可达或需要重定向的报告数据包。这就是我们在ICMP监测时经常观

察到的现象。

本地铁通的用户数量并不多,而且与上级网络的链路带宽为155M

ATM链路,大有充裕,所以上Inter的用户其上网速度主要受子网

带宽的影响。因为许多的用户要经过拥挤的无效E1链路,造成路由

重定向和严重的时延。大量的IP数据包拥向只有2M带宽的子网路

由器,流量到达了97%,造成子网工作速度突然变慢,路由器出现

严重拥塞等现象。

基为了防止DNS效劳不稳定造成业务中断或出错,不少网管人员在

设置DNS效劳器时都安装了备用DNS效劳器,亦即安装不只一台

DNS效劳器。但这样做也会带来一个潜在的危险,即主DNS效劳器

出问题,备用自动效劳器投入运行,这样会牺牲一定的网络带宽,

使得系统总体性能有所下降。危险在于,性能的下降常常是在不知

不觉中来到的。所以,为了保证网络经常处于良好的工作状态,网

络管理人员需要定期检查DNS效劳器的转换表。

本故障中的DNS指向错误导致用户的IP数据包对准了子网效劳器,

但如果对准的不是效劳器而是中心网络本地网段中的某台机器,那

么故障强度会减弱,用户不会感到非常明显的速度变慢。这样可能

不会感到明显的“身体不适”从而使得网络长期带病运行。就象人

一样,定期的体检对及时发现疾病及其隐患是非常必要的。而如何

及时发现路由优化方面的问题,也是网络定期工程测试中的内容之

一,对大型网络那么更有必要,必须坚持定期维护和测试。