碰撞問題
如果碰撞較多,要算一下有多帶寬被碰撞損失了。把本地和遠端碰撞的損失都加起來,如果平均碰撞的值大于5—10%,就要進行進一步的故障查找。同樣要檢查一下碰撞是否是突發的,也就是說碰撞明顯地增多不是因為流量明顯增大引起的,如果是這樣就意味著某處的物理層出現了比較嚴重的問題。在碰撞與流量之間應是有一定的關系的。這種關系應當在做網絡參照基準測試時收集到。如果碰撞始終是比較多的(但仍是可以接受),可能是太多站點同時在參與發送,或者網絡結構應做一些優化使近距離的站點分在一起。過多的碰撞最常見是與介質有關的故障導致的。比如:不正確的端接,特性阻抗不連續(壞接點、殘留支纜、殘破線纜)等和壞網卡。
過載網段
如果利用率很高(持續峰值超過60%)而碰撞又可以接受(平均碰撞小于10%),那么網絡就飽和了。這時就應該增加網段或用路由器把網段分成較小的可以支持正常流量的網段。
硬件故障
如果出現幀錯誤,利用專業儀表可以找出錯誤幀的來源。此后的工作就是在Hub口、網卡和電纜中隔離出特定的故障,如果故障是間歇性的,就替換掉有懷疑的網卡。檢查一下服務器/服務是否接在廣域網路由器的遠端。如果是這樣,就用Ping測試來測一下響應時間并與基準測試比較一下。為了保證沒丟失幀的情況就要連續運行多次的Ping測試,檢查測試請求包與響應包是否相等。如果不相等,遠端的介質或互連設備(網橋、路由器等)就有可能是容量問題或有故障。丟幀也是電纜故障之一。比如:UTP布線中的線對串繞和同軸纜由線的環地故障。如果懷疑有丟幀就進行電纜測試。測試接在反應慢的工作站的電纜,也要測一下服務器方向的電纜。
軟件故障
運行網絡統計測試,如果是高流量,低碰撞,而且有一點錯誤幀,就先確定發出錯誤幀的站點。也可以由繁忙站點測試來找出有問題的站點。到該站點現場來查看該用戶在做什么。要問明在非高峰時間用戶在干什么或把這個用戶移到其它網段上,以改善本網段上的其它用戶工作情況。如果利用率、碰撞、錯誤幀都低,要詢問抱怨網絡性能不好的用戶是使用哪個服務器和哪個應用軟件。檢查該服務器是否處在高負載狀況下,它和網絡的利用率是不同的概念。要找到使用這個服務器資源最多的用戶,這可以用服務器上的用戶監測功能或協議分析儀來完成。
無論是網絡流量高或低時發生的問題,如果是碰撞很少而且是沒有幀錯誤,這類問題多出自應用軟件或與文件服務器有關。服務器可能是Cache設置的太小,保留的緩沖不足,服務器內存不夠,服務器硬盤所余空間有限,8-bit網卡等等,這也可能是另一類軟件問題,他們可能造成不正常的“網絡磁盤請求”,這時有必要將某一應用移到另一個服務器上,要么升級現有的服務器,要么再加入一個新的服務器。
網絡故障可能是很復雜的,很多問題會導致同樣的故障表現不同。查找故障的基本方法是二分法。為了有效地解決故障,我們需要有網絡的文檔。了解在網絡正常工作時的參數,要裝備合理的工具以幫助我們找出網絡的故障。從上述的兩大類故障中可以看出,網絡管理人員不僅需要網絡的幀監測工具,也要有主動測試硬件和功能的能力,方便地找出網絡中最常見故障的地址。