今天浩道跟大家分享一位資深網(wǎng)絡(luò)工程師針對一起網(wǎng)絡(luò)故障的排查全過程。讓我們一起學習排查故障思路!
我們知道,交換機是局域網(wǎng)中一種很重要的網(wǎng)絡(luò)設(shè)備,它的工作狀態(tài)與客戶端系統(tǒng)的上網(wǎng)狀態(tài)息息相關(guān)。
可是,在實際工作過程中,交換機的狀態(tài)很容易受到外界的干擾,那樣一來局域網(wǎng)中就會出現(xiàn)各種各樣的網(wǎng)絡(luò)故障。
為了保證網(wǎng)絡(luò)運行穩(wěn)定,我們必須在平時對交換機進行妥善管理、維護,避免交換機發(fā)生故障。
本篇文章,轉(zhuǎn)載自一位資深老網(wǎng)工的排障經(jīng)歷貼。他以前在對某大樓局域網(wǎng)進行維護時,曾經(jīng)遇到過物理連接不當,而造成樓層交換機無法ping通的故障現(xiàn)象。這種網(wǎng)絡(luò)故障的排查曾讓他頗費一番周折。
由于該故障相對典型,而且其排查思路可供借鑒,所以特此分享給你。
01
故障現(xiàn)場
我當時所負責的寫字大樓包含若干個公司,為了保證每個公司都能獨立上網(wǎng),并且要求它們的上網(wǎng)狀態(tài)不受其他公司的影響,我選用了路由交換機作為大樓網(wǎng)絡(luò)的核心交換機。
同時在交換機上對每個單位設(shè)置了不同的虛擬工作子網(wǎng)。
由于每家單位分布在不同的樓層,每個樓層分布的公司數(shù)量也不完全相同,有的樓層有兩、三家單位,有的樓層多達五、六家單位。
不同樓層的單位工作子網(wǎng)全部通過對應(yīng)樓層的交換機,連接到大樓局域網(wǎng)中,并通過大樓網(wǎng)絡(luò)中的硬件防火墻訪問Internet網(wǎng)絡(luò)。
為了提高網(wǎng)絡(luò)管理效率,網(wǎng)絡(luò)管理員平時都會通過遠程連接方式對交換機進行管理、維護。
可是,那天早上一上班,我在掃描診斷局域網(wǎng)核心交換機各個交換端口的工作狀態(tài)時,發(fā)現(xiàn)其中某個交換端口處于down狀態(tài)。
于是我查看了網(wǎng)絡(luò)管理檔案,找到連接該端口的是五樓某二層交換機。
遠程登錄該樓層交換機時,發(fā)現(xiàn)遲遲無法登錄成功,使用 ping 命令測試該交換機的 IP 地址時,返回的結(jié)果為“Request?time?out ”;
就在我納悶為什么沒有人報故障時,電話鈴聲如期而至,果然來自五樓的用戶開始接二連三地報修網(wǎng)絡(luò)故障了。
根據(jù)上述故障現(xiàn)象,我估計可能是樓層交換機的工作狀態(tài)出現(xiàn)了意外。
于是跑到該故障交換機現(xiàn)場,切斷該設(shè)備的電源,過一段時間后再次接通電源,進行重新啟動。
等到啟動操作完畢后,我又使用了 ping 命令測試該交換機的 IP 地址。
此時返回的結(jié)果已經(jīng)正常,而且遠程登錄操作也能夠很順利地進行。
然而,半個小時之后,該故障交換機又出現(xiàn)了相同的故障現(xiàn)象,并且進行 ping 命令測試時,又返回了不正常的測試結(jié)果。
后來我不放心,又重新經(jīng)過反復啟動測試,發(fā)現(xiàn)故障交換機始終無法正常 ping 通。
02
深入排查
既然經(jīng)過反復重啟不能解決問題,我估計引起該故障的原因比較復雜,考慮到這種故障現(xiàn)象在網(wǎng)絡(luò)管理過程中經(jīng)常會碰到。
于是我按照下面的思路進行了深入排查:
考慮到整個大樓網(wǎng)絡(luò)中,只有五樓的某個樓層交換機出現(xiàn)這種現(xiàn)象,所以,我初步判斷可能是該樓層交換機自身問題引起的。?
為了能夠確保可以準確定位故障原因,我準備利用一臺工作狀態(tài)正常的交換機來替換故障交換機,看看故障現(xiàn)象是否仍然存在。
同時,將那臺被懷疑可能存在問題的交換機連接到一個獨立的網(wǎng)絡(luò)工作環(huán)境。
經(jīng)過半個小時的測試、觀察,我看到那臺被連接到獨立網(wǎng)絡(luò)環(huán)境的故障交換機工作狀態(tài)是正常的,而且在該網(wǎng)絡(luò)環(huán)境下可以ping通它的 IP地址。
而那臺新替換的交換機連接到大樓網(wǎng)絡(luò)后,卻不能正常 ping通了。
依照這些現(xiàn)象,我認為五樓的交換機自身出現(xiàn)問題的可能性幾乎沒有。在排除了故障交換機自身狀態(tài)因素后,我對整個大樓網(wǎng)絡(luò)的組網(wǎng)結(jié)構(gòu)和網(wǎng)絡(luò)狀態(tài)重新進行了回顧。
由于大樓中其他樓層的用戶都能正常上網(wǎng),唯獨五樓的一部分用戶不能上網(wǎng)。
查閱五樓的組網(wǎng)資料,我看到五樓分布了五家單位,當時網(wǎng)絡(luò)管理員在五樓布置了兩臺樓層交換機,將它們通過級聯(lián)方式連接在一起;
同時在這兩臺交換機中劃分了五個虛擬工作子網(wǎng),保證了每家單位都能獨立地工作于自己的虛擬工作子網(wǎng)中。
既然核心交換機上的對應(yīng)端口已經(jīng)被down掉,那么整個五樓的所有單位都不能上網(wǎng)才對,為什么現(xiàn)在只有一部分用戶上報故障現(xiàn)象呢?
等到上班時間一到,我立即電話聯(lián)系了其他幾家沒有報修網(wǎng)絡(luò)故障的公司。得到的答復是說:他們剛剛才發(fā)現(xiàn)網(wǎng)絡(luò)訪問不正常,正準備向大樓網(wǎng)絡(luò)管理員求救。
如此說來,整個五樓的所有單位都是不能正常上網(wǎng)的,那么引起該故障的原因應(yīng)該在這幾家單位的虛擬工作子網(wǎng)中。
在將故障排查范圍鎖定在位于五樓的五家單位之后,我認為既然重新啟動五樓某個交換機的設(shè)備,能夠暫時地將網(wǎng)絡(luò)故障恢復。
只是在半個小時之后,相同的網(wǎng)絡(luò)故障現(xiàn)象才會再次現(xiàn)象。
對照這種特殊的現(xiàn)象,我懷疑可能是網(wǎng)絡(luò)廣播風暴,造成了交換機在一定時間內(nèi)發(fā)生了堵塞現(xiàn)象,最終堵死了核心交換機的對應(yīng)交換端口。
為了便于分析故障,我利用網(wǎng)絡(luò)監(jiān)聽工具對五樓交換機的級聯(lián)端口進行了網(wǎng)絡(luò)傳輸數(shù)據(jù)包分析。
結(jié)果發(fā)現(xiàn)無論是輸入數(shù)據(jù)包流量,還是輸出數(shù)據(jù)包流量,都非常地大,幾乎超過了正常數(shù)值的100倍左右,這說明四樓的網(wǎng)絡(luò)中出現(xiàn)了網(wǎng)絡(luò)堵塞現(xiàn)象。
那么究竟是網(wǎng)絡(luò)病毒引起的網(wǎng)絡(luò)堵塞?
還是網(wǎng)絡(luò)環(huán)路引起的網(wǎng)絡(luò)堵塞呢?
我打算觀察一下故障交換機級聯(lián)端口的狀態(tài)信息變化,特別是輸出廣播包的變化。如果輸出廣播包每秒鐘都在不停增大的話,那十有八九就能證明五樓網(wǎng)絡(luò)中存在網(wǎng)絡(luò)環(huán)路現(xiàn)象。
基于這樣的分析思路,我使用 Console控制線直接連接到故障交換機上,以系統(tǒng)管理員身份登錄進入該系統(tǒng)后臺。
同時使用 display 命令查看了該交換機級聯(lián)端口的輸出廣播包的變化,并且每隔一秒鐘查看一次,之后比較每次查看的結(jié)果。
經(jīng)過反復測試,我發(fā)現(xiàn)故障交換機的輸出廣播包大小果然在不斷地增大著。
這說明五樓的五家單位中,肯定存在網(wǎng)絡(luò)環(huán)路現(xiàn)象。
仔細查看了五樓的兩臺交換機,我發(fā)現(xiàn)它們之間的物理連接是正常的。
此外,這兩臺交換機的各個交換端口直接與五樓各個房間的墻上上網(wǎng)插口相連。
按理來說,只要各個房間不隨意使用交換機進行級聯(lián), 應(yīng)該不會出現(xiàn)網(wǎng)絡(luò)環(huán)路現(xiàn)象的。
現(xiàn)在,既然證明五樓網(wǎng)絡(luò)中存在網(wǎng)絡(luò)環(huán)路現(xiàn)象,這說明肯定有人在隨意使用交換機進行擴展上網(wǎng),我們只要找到擴展交換機,并對它的物理連接進行檢查,就能迅速找到具體的故障節(jié)點了。
于是我電話聯(lián)系了五樓各家單位的網(wǎng)絡(luò)管理員,要求他們對各個辦公房間進行檢查,并上報使用下級交換機的房間。
沒有多長時間,檢查結(jié)果就反饋給了我,竟然有10個左右的房間使用了下級交換機進行擴展上網(wǎng)。
這時我知道這10個房間的網(wǎng)絡(luò)連接,最有可能出現(xiàn)網(wǎng)絡(luò)環(huán)路現(xiàn)象,那究竟是哪一個房間呢?
難道我要依次到各個房間的現(xiàn)場,查看他們的網(wǎng)絡(luò)連接嗎?
經(jīng)過認真考慮,我找來了組網(wǎng)資料,將這10個房間使用的交換端口號碼一一找了出來。
之后使用網(wǎng)絡(luò)線纜直接插入到這些交換端口中,并在這些端口的視圖模式狀態(tài)下,依次ping故障交換機的IP地址。
結(jié)果ping到第六個交換端口時,我發(fā)現(xiàn)從該端口無法正常ping通。
為了判斷該交換端口是否真的存在問題,我又在該交換端口視圖模式狀態(tài)下,使用 display 命令查看了該交換端口的狀態(tài)信息。
經(jīng)過查看分析,我發(fā)現(xiàn)該交換端口的輸入、輸出數(shù)據(jù)包大小明顯不正常。于是,我估計該交換端口肯定是造成故障交換機工作狀態(tài)不正常的原因。
查閱檔案資料后,我迅速根據(jù)那個交換端口號碼,找到了對應(yīng)的那個上網(wǎng)房間。
到了現(xiàn)場后,我發(fā)現(xiàn)該房間中僅有的兩個上網(wǎng)端口,都連接了小集線器,而這兩臺集線器下面都連接有幾臺計算機。
更要命的是還有一條網(wǎng)絡(luò)線將它們直接連接在了一起,這樣一來這兩個集線器之間就形成了一個網(wǎng)絡(luò)環(huán)路。?
該環(huán)路造成的廣播風暴最終堵塞了故障交換機的級聯(lián)端口,從而造成了整個樓網(wǎng)絡(luò)都不能正常上網(wǎng)。
03
故障解決
將該多余的網(wǎng)絡(luò)線纜拔除之后,我重新查看了該交換端口的狀態(tài)信息。結(jié)果發(fā)現(xiàn)輸入、輸出數(shù)據(jù)包大小都恢復了正常。
再次查看核心交換機上對應(yīng)的交換端口狀態(tài)時,發(fā)現(xiàn)原因的“down”狀態(tài)已經(jīng)變成了“up”狀態(tài),而且此時我也能正常ping通四樓的故障交換機了。
這說明,問題果然是由五樓某個房間的用戶非法擴展使用交換機或集線器引起的。后來,我經(jīng)過進一步詢問上網(wǎng)用戶了解到,他們的房間在前天晚上進行了打掃除,當時所有的網(wǎng)絡(luò)線全部被拔了下來。
當清潔工作結(jié)束之后,上網(wǎng)用戶由于對連接知識了解不多,就隨意進行了插接,最終造成了網(wǎng)絡(luò)環(huán)路現(xiàn)象。
編輯:黃飛
評論
查看更多