要全天候運行,難免會出現(xiàn)這樣那樣的故障。出現(xiàn)故障后,如何迅速找到故障原因并消除故障是一個數(shù)據(jù)中心運維效率的最直接體現(xiàn)。數(shù)據(jù)中心一旦發(fā)生故障,影響了數(shù)據(jù)業(yè)務(wù),將給數(shù)據(jù)中心帶來巨大的經(jīng)濟損失,有時甚至是毀滅性的打擊,所以數(shù)據(jù)中心都不希望出現(xiàn)任何的故障。當然,愿望是美好的,現(xiàn)實是殘酷的,數(shù)據(jù)中心包含有太多的電子設(shè)備和大量的軟件,雖然部署了很多的備份技術(shù)和設(shè)備,但依然很難做到永遠都不出故障。那么問題來了,一旦數(shù)據(jù)中心出現(xiàn)了故障,該如何高效處理?本文將針對如何處理數(shù)據(jù)中心故障列出八條 軍規(guī) ,建議遇到數(shù)據(jù)中心故障時,能遵守這些 軍規(guī) ,盡量減少故障給數(shù)據(jù)中心帶來的損失,同時避免相同的故障出現(xiàn)第二次。
第一條:摸清故障現(xiàn)象
數(shù)據(jù)中心的故障表現(xiàn)復雜多樣,先要弄清楚故障現(xiàn)象是什么?一般數(shù)據(jù)中心故障都是先從應(yīng)用層面表現(xiàn)出來,如果從這些方面開始分析,很容易走錯方向。比如:應(yīng)用部分反饋訪問網(wǎng)頁慢、支付系統(tǒng)完成不了支付、游戲業(yè)務(wù)玩不了了等等,這些應(yīng)用業(yè)務(wù)的故障表現(xiàn)往往是片面的,不同技術(shù)水平的人和不同的業(yè)務(wù)部門的人反饋的故障現(xiàn)象都有差別,很容易讓人不知道該從何查起。這時要對反饋的故障現(xiàn)象進行收集和整理,找出其中的共性。所謂摸清故障現(xiàn)象,就是找出此時數(shù)據(jù)中心里統(tǒng)一的故障現(xiàn)象。
第二條:測試并確認故障范圍
根據(jù)故障現(xiàn)象,我們要查看這些故障是否來自于同一臺服務(wù)器、同一條鏈路或者是同一臺網(wǎng)絡(luò)設(shè)備等。所有的應(yīng)用業(yè)務(wù)都是在這些物理硬件設(shè)備上運行的,其中的任何一個環(huán)節(jié)的設(shè)備出現(xiàn)故障,都會導致問題。此時,各種網(wǎng)絡(luò)探測診斷工具就派上用場了。通過使用PING、Tracert、鏡像、流量統(tǒng)計、抓包等一系列手段,確定故障位置。經(jīng)過這樣一系列的診斷,可以將故障范圍縮小到某一臺設(shè)備或只有數(shù)臺設(shè)備的網(wǎng)絡(luò)區(qū)域。
第三條:嘗試定位
一個經(jīng)驗豐富的數(shù)據(jù)中心技術(shù)人員,往往可以根據(jù)故障表現(xiàn)迅速找到故障原因。這時,如果故障影響是可以容忍的,在條件允許的情況下,可以嘗試定位問題,試圖找到觸發(fā)此次故障的根本原因。此時技術(shù)人員一定要思路清晰,一步步來采集各種信息,深入分析。數(shù)據(jù)中心里有太多的設(shè)備,這些設(shè)備來自不同廠家,各自的技術(shù)特點也不同,沒有哪個數(shù)據(jù)中心技術(shù)人員能全部掌握,如果在短時間內(nèi)無法定位問題,或者是分析來分析去已經(jīng)沒有任何思路,此時就要放棄繼續(xù)定位。
第四條:收集故障時必要信息
一定要在故障的時候收集一些設(shè)備的日志、診斷、操作記錄、內(nèi)部隱藏信息,很多信息是設(shè)備廠家要求在故障時收集的,要按照廠家的要求將信息收集完整,以便這些信息可以供設(shè)備廠家分析,日后找出故障發(fā)生的原因。很多時候,數(shù)據(jù)中心的技術(shù)人員急于恢復業(yè)務(wù),往往忽略收集這些信息,這將為日后定位問題造成了極大難度。
第五條:故障恢復
為了盡快消除故障,需要對故障進行恢復。此時不要上來就對疑似故障的設(shè)備直接重啟或者更換、下電,這樣極有可能會造成更為嚴重的故障。本來原來的故障可能只是偶爾有訪問出錯,有丟包,經(jīng)過設(shè)備重啟就可能造成整網(wǎng)的業(yè)務(wù)中斷。故障恢復的操作應(yīng)該從輕到重,逐步來嘗試執(zhí)行。比如路由異常,可以先對特定路由進行刪除重建,不行的話,再對某一個鄰居進行復位重建,還不行的話再對整個路由協(xié)議進行重建,這樣一來最嚴重也是影響這一類路由協(xié)議的轉(zhuǎn)發(fā),對其它業(yè)務(wù)并沒有影響。還是不行再考慮重啟框式設(shè)備的板卡,再不行再考慮重啟整機設(shè)備,此時也盡量不要斷電重啟,很多設(shè)備只要不是斷電重啟還是會留下一些有意義的歷史記錄信息。如果數(shù)據(jù)中心的各個故障環(huán)節(jié)都是備份系統(tǒng),可以暫時將業(yè)務(wù)遷移到備份系統(tǒng)上來,故障的主用系統(tǒng)繼續(xù)保留,供技術(shù)人員繼續(xù)排查故障,直到找到故障原因,徹底消除后,再將業(yè)務(wù)切換回來。
第六條:再次驗證業(yè)務(wù)的正確性
故障恢復后,要再次對數(shù)據(jù)中心承載的業(yè)務(wù)進行各種測試,看是否所有的業(yè)務(wù)都恢復正常,同時與各個業(yè)務(wù)部門人員交流,確認業(yè)務(wù)的正確性。當?shù)玫綔蚀_反饋,所有業(yè)務(wù)都恢復正常后,再停止業(yè)務(wù)驗證。
第七條:長時間觀察
數(shù)據(jù)中心故障有時會容易反復,尤其是在沒有找到故障原因的情況下,所有的故障恢復手段都可能不是很有效的,很可能會再次出現(xiàn)故障。這時要密切關(guān)注數(shù)據(jù)中心業(yè)務(wù)運行情況,一旦發(fā)現(xiàn)異常,及時處理。
第八條:分析故障原因,總結(jié)經(jīng)驗教訓
故障發(fā)生后,在還未明確故障原因的情況下,及時將收集的信息發(fā)給設(shè)備廠商,協(xié)同分析,在事后故障分析上要投入大量的人力、物力,直到找到故障原因。如果無法找到故障原因,對于數(shù)據(jù)中心是最可怕的事情,很可能會再次發(fā)生,造成二次的損失,所以要在故障分析上多投入,直到找到故障原因。找到故障原因后,要對產(chǎn)生這次故障的原因進行深入分析,結(jié)合目前數(shù)據(jù)中心的運行狀況,看是否有改進的空間,及時總結(jié)故障處理過程中不足的地方,對薄弱環(huán)節(jié)進行加強,避免同樣的故障再次發(fā)生。
處理數(shù)據(jù)中心故障要嚴格依照這八條 軍規(guī) ,只有這樣才能在遇到故障時,處理起來有章法、高效率,并能夠在處理故障的過程中積累實踐經(jīng)驗,不斷提升數(shù)據(jù)中心的運維水平。
文章編輯:CobiNet(寧波),本公司專注于電訊配件,銅纜綜合布線系列領(lǐng)域產(chǎn)品研發(fā)生產(chǎn)超五類,六類,七類屏蔽網(wǎng)線/屏蔽模塊及相關(guān)模塊配件,歡迎來電咨詢0574 88168918,網(wǎng)址78867.cn
?2016-2019寧波科博通信技術(shù)有限公司版權(quán)所有浙ICP備16026074號