對火災(zāi)的管理,也應(yīng)隨著國家戰(zhàn)略的落地、數(shù)據(jù)中心在國民經(jīng)濟中發(fā)揮越來越重要的關(guān)鍵作用,而進行更加全面的有效管理,將目前以風(fēng)險管控和應(yīng)急預(yù)案為主的防火防災(zāi)管理,改變?yōu)橹塾跒楦餍袠I(yè),特別是對數(shù)據(jù)中心高度依賴的行業(yè),提供連續(xù)穩(wěn)定的支撐服務(wù)為目標(biāo)的火災(zāi)場景下的服務(wù)連續(xù)性管理,數(shù)據(jù)中心應(yīng)制定詳盡的火災(zāi)場景下的服務(wù)連續(xù)性計劃。
1、火災(zāi)情況
總部位于法國魯貝的法國獨角獸公司OVHCloud(前身為OVH),在全球擁有27個數(shù)據(jù)中心,OVH是歐洲最大的托管服務(wù)提供商,也是世界第三大托管服務(wù)提供商,其位于法國斯特拉斯堡的數(shù)據(jù)中心園區(qū),共包括SBG1、SBG2、SBG3和SBG4四棟數(shù)據(jù)中心建筑。2021年當(dāng)?shù)貢r間3月10日凌晨,一場大火燒毀了法國斯特拉斯堡OVHCloud的鋼結(jié)構(gòu)SBG2數(shù)據(jù)中心,導(dǎo)致其托管的許多網(wǎng)站中某些數(shù)據(jù)永久丟失。
根據(jù)該公司網(wǎng)站上的事件報告稱,大火在當(dāng)?shù)貢r間凌晨1點在SBG2內(nèi)的一間房內(nèi)發(fā)生。到凌晨4點左右,大火完全摧毀了OVH的SBG2數(shù)據(jù)中心,并波及摧毀了SBG1八個服務(wù)器機房中的四個房間。OVH創(chuàng)始人和董事長奧克塔夫 克拉巴(OctaveKlaba)在推特更新中表示,SBG3中的所有服務(wù)器均完好無損,SBG4不受大火影響。但這些數(shù)據(jù)中心均由于這次事件停止服務(wù),處于離線狀態(tài)。
據(jù)了解,OVH的上一次重大停機危機也發(fā)生在斯特拉斯堡園區(qū)。2017年曾導(dǎo)致整個園區(qū)停電約40min。Klaba表示,該事件與停電無關(guān),是由于網(wǎng)絡(luò)設(shè)備中的一個無關(guān)軟件漏洞,導(dǎo)致其位于魯拜克斯(RoubaiX)的園區(qū)失去了與其網(wǎng)絡(luò)上六個關(guān)鍵點的所有連接。
至于本次火災(zāi)原因,目前還沒有正式的官方公告,但多種事實指向了UPS設(shè)備導(dǎo)致的一系列故障。在火災(zāi)發(fā)生的前一天,供應(yīng)商對UPS7進行了維護,Klaba稱供應(yīng)商在UPS7內(nèi)部更換了某些部件,并在下午重新啟動了它。
雖然直流電匯聚成高壓時,的確會有失火的風(fēng)險,Klaba并沒有說UPS就是此次失火事件的起因。他說: 我們今天并沒有得到所有的答案。 OVHcloud的工作人員在周二晚上11點42分響應(yīng)火災(zāi)警報,但數(shù)據(jù)中心受影響的部分已經(jīng)煙霧彌漫: 兩分鐘后,他們決定離開,因為太危險了。
2、相關(guān)組織和媒體的災(zāi)后報道與反思
事發(fā)后,國內(nèi)很多組織開始結(jié)合這次火災(zāi)的事實,并且不局限于本次火災(zāi)擴展開來,分析火災(zāi)風(fēng)險、成因以及對策,希望能夠為數(shù)據(jù)中心行業(yè)減少火災(zāi)發(fā)生,做出一點貢獻。
仔細研讀后,我發(fā)現(xiàn)這些分析文章的觀點都集中在起火原因分析,并且大多只分析技術(shù)上的起火原因,比如短路、過載、接觸不良、漏電、線路老化或散熱等,所給出的對策也多集中在針對這些起火原因,減少起火概率和早發(fā)現(xiàn)等方面,例如使用極早期煙霧探測技術(shù)、增加火災(zāi)高風(fēng)險設(shè)施的監(jiān)控、加強巡檢、定期更換老化的元器件、完工驗收與檢測等等。
然而,僅僅如此分析顯然不夠。從本次火災(zāi)的現(xiàn)有記錄來看,在凌晨1點確認SBG2的一間房內(nèi)發(fā)生大火的1個多小時之前,就已觸發(fā)火警,不可謂發(fā)現(xiàn)不及時,然而這么長時間,為什么沒有有效處置?直到凌晨4點在外部消防力量介入下才控制火勢,防火分區(qū)為什么沒有發(fā)揮足夠的作用?為什么數(shù)據(jù)中心自身的滅火系統(tǒng)沒有發(fā)揮有效作用?為什么沒有受到火災(zāi)影響的部分也無法提供服務(wù)?說好的多路由呢?這次火災(zāi)從故障發(fā)煙到起火,從小災(zāi)到大災(zāi)再到影響眾多下游企業(yè)和政府部門業(yè)務(wù)的系統(tǒng)性大災(zāi)難,這個演變過程,豈是上面那些原因可以覆蓋的?
3、有必要全面地反思火災(zāi)成因
火災(zāi)一詞是由兩個字構(gòu)成的,因火成災(zāi)才能被稱作火災(zāi)。所以我們分析火災(zāi)原因的時候,不僅要分析起火原因,還要分析致災(zāi)原因。大家都知道,火災(zāi)重在預(yù)防,但是防什么?不僅僅要防火,還要防災(zāi)!
關(guān)于起火原因以及對策,如前所述,其他組織和各種媒體多有反思,不再贅述。
雖然這次火災(zāi)的原因尚無正式結(jié)論,該數(shù)據(jù)中心的關(guān)鍵數(shù)據(jù)也未披露,所以致災(zāi)原因也無法準(zhǔn)確判斷,但是這也不妨礙我們就常見的致災(zāi)原因進行舉例說明。
首先是防火防災(zāi)意識淡漠,這是數(shù)據(jù)中心火災(zāi)頻發(fā)的最根本原因。例如某四大行總行數(shù)據(jù)中心的總經(jīng)理就曾經(jīng)指責(zé)手下分管副總經(jīng)理部署火災(zāi)防范工作是做無用功,他的觀點非常有代表性,這位總經(jīng)理說我們數(shù)據(jù)中心用的都是難燃阻燃的材料,怎么可能著火?持這種觀點的人不在少數(shù)。甚至在出了這次OVH火災(zāi)后,又有媒體說,把數(shù)據(jù)中心放到海底去,就不會發(fā)生火災(zāi)了。如果真的是這樣,為什么各國海軍常有潛艇火災(zāi)的報道?以為海底數(shù)據(jù)倉不存在氧氣就不會有火災(zāi),但是你知道不僅只有氧氣才可以助燃嗎?在極高能量密度的封閉空間,有誰能保證不會起火、甚至爆炸?一旦有了這種意識,自然就不會在防火防災(zāi)上下功夫。
其次,數(shù)據(jù)中心設(shè)計上存在缺陷。數(shù)據(jù)中心的設(shè)計應(yīng)確保數(shù)據(jù)中心在具備足夠高的可用性水平的基礎(chǔ)上,還要有足夠的韌性,確保數(shù)據(jù)中心在局部受損的情況下還能夠具備可接受的有限服務(wù)能力。數(shù)據(jù)中心的設(shè)計師缺乏防火防災(zāi)意識,就會體現(xiàn)到數(shù)據(jù)中心設(shè)計上。例如他們以為GB50174數(shù)據(jù)中心設(shè)計規(guī)范中對A級數(shù)據(jù)中心不存在單點故障的原則要求與火災(zāi)場景無關(guān),防火的問題僅需要遵循防火規(guī)范的要求而不需要為數(shù)據(jù)中心進行專門的考慮。例如我在即將進入土建施工階段的一個業(yè)主要求建成全球一流數(shù)據(jù)中心的大型A級數(shù)據(jù)中心的設(shè)計圖紙上看到,雙路供電的兩路本該完全隔離的配電系統(tǒng)、UPS系統(tǒng)被設(shè)計進了同一個防火分區(qū),于是只要其中一臺設(shè)備起火,就會導(dǎo)致整個數(shù)據(jù)中心完全斷電,成為單點故障。
再次,建造瑕疵。例如我已經(jīng)在不止一個數(shù)據(jù)中心看到,現(xiàn)場與圖紙防火分區(qū)不對應(yīng)、消防點位不對應(yīng)、防火分區(qū)與滅火鋼瓶不對應(yīng),甚至發(fā)現(xiàn)有的氣滅分區(qū)根本不存在氣體管路。
這些給后期運維團隊有效處置火險帶來了極大的不確定因素,并且通常不易發(fā)現(xiàn)不易驗證,核對費時費力。前面那位總經(jīng)理又有經(jīng)典言論:實際與圖紙不符是工程部門的責(zé)任,我們數(shù)據(jù)中心只需按圖操作,沒必要去核實。
最后,到了運維和使用階段,往往也因為意識淡漠,不重視消防工作,導(dǎo)致防不了火,防不了災(zāi),小火成災(zāi)。比如前面提到的不去做核實工作,不能識別和控制風(fēng)險;對動火作業(yè)的管理缺失,留下起火成災(zāi)的隱患;放任包裝紙箱等易燃品進入關(guān)鍵區(qū)域并處于無人看管狀態(tài),留下了火勢擴大的隱患;為了維護作業(yè)方便,不及時關(guān)閉防火門,布線作業(yè)破壞防火封堵后不及時修復(fù)等導(dǎo)致防火分區(qū)失效;滅火器配備不足、滅火器送檢期間未補充替代滅火器,不會使用二氧化碳滅火器等,導(dǎo)致初起火險無法撲滅;過渡依賴聯(lián)動滅火,不會手動操作;組織演練時只演不練,做表面文章,人員不熟悉預(yù)案,未驗證預(yù)案在夜間及節(jié)假日只有值班人員時的有效性,系統(tǒng)運行方式調(diào)整卻不及時更新預(yù)案等,導(dǎo)致預(yù)案在需要的時候不能使用
更近一步,我們還應(yīng)當(dāng)引導(dǎo)客戶合理使用數(shù)據(jù)中心,引導(dǎo)客戶采取措施,減少因數(shù)據(jù)中心服務(wù)中斷給客戶帶來更大的損失。例如對于業(yè)務(wù)連續(xù)性要求高,難以接受業(yè)務(wù)中斷的客戶,我們應(yīng)當(dāng)引導(dǎo)客戶采用災(zāi)備、多活等高可用方案,將其系統(tǒng)分布部署到有一定距離的不同地點的兩個或者更多的數(shù)據(jù)中心中;對于業(yè)務(wù)連續(xù)性要求不高,尚可接受一定程度的業(yè)務(wù)中斷,但業(yè)務(wù)數(shù)據(jù)價值高的客戶,應(yīng)引導(dǎo)客戶進行數(shù)據(jù)備份并異地保存等。再例如數(shù)據(jù)中心場地資源分配使用時,可引導(dǎo)客戶按照業(yè)務(wù)系統(tǒng)重要性和業(yè)務(wù)連續(xù)性要求的不同合理分區(qū)部署,確保當(dāng)數(shù)據(jù)中心部分受損,服務(wù)能力不足時,有條件優(yōu)先保障業(yè)務(wù)連續(xù)性要求高的重要業(yè)務(wù)系統(tǒng)的正常運行。而現(xiàn)實中,數(shù)據(jù)中心為了獲客,往往宣傳一個看似合理的虛高的可用性,使得客戶對單體數(shù)據(jù)中心抱有不切實際的奢望,使數(shù)據(jù)中心火災(zāi)變成了一個牽扯眾多的系統(tǒng)性災(zāi)難,對給客戶造成的損失和聲譽影響甩鍋給客戶:誰讓你不做好災(zāi)備呢,數(shù)據(jù)丟了你賴誰!
凡此種種,都可能導(dǎo)致小火成災(zāi),小災(zāi)變大難。這還僅僅枚舉了一部分,遠非火災(zāi)原因的全部。
4、新基建背景下,數(shù)據(jù)中心火災(zāi)管理的新要求
當(dāng)前隨著中國制造2025、網(wǎng)絡(luò)強國戰(zhàn)略、國家戰(zhàn)略、數(shù)字化轉(zhuǎn)型、兩化融合、互聯(lián)網(wǎng)+、一帶一路、、大數(shù)據(jù)、CPS(信息物理網(wǎng)絡(luò))等新的一批國家戰(zhàn)略制定和新技術(shù)如火如荼的發(fā)展,數(shù)據(jù)中心成為支撐這些國家戰(zhàn)略落地的關(guān)鍵基礎(chǔ)設(shè)施,特別是2020年3月4日中共中央政治局常務(wù)委員會召開會議,會議強調(diào) 要加大公共衛(wèi)生服務(wù),應(yīng)急物資保障領(lǐng)域投入,加快5G網(wǎng)絡(luò)、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進度。要注重調(diào)動民間投資積極性。 不僅將使數(shù)據(jù)中心建設(shè)進入了一個高潮期,同時,各行各業(yè)也將對數(shù)據(jù)中心越來越依賴,在銀行業(yè)后,將誕生更多對數(shù)據(jù)中心高度依賴的行業(yè)。包括火災(zāi)在內(nèi)的數(shù)據(jù)中心服務(wù)的中斷不再是數(shù)據(jù)中心自己的事,將會成為一個系統(tǒng)性的社會風(fēng)險,必須引起數(shù)據(jù)中心從業(yè)人員的高度的重視(參見圖2)。
數(shù)據(jù)中心對火災(zāi)的管理,也應(yīng)隨著國家戰(zhàn)略的落地、數(shù)據(jù)中心在國民經(jīng)濟中發(fā)揮越來越重要的關(guān)鍵作用,而進行更加全面的有效管理,將目前以風(fēng)險管控和應(yīng)急預(yù)案為主的防火防災(zāi)管理,改變?yōu)橹塾跒楦餍袠I(yè),特別是對數(shù)據(jù)中心高度依賴的行業(yè),提供連續(xù)穩(wěn)定的支撐服務(wù)為目標(biāo)的火災(zāi)場景下的服務(wù)連續(xù)性管理(參見圖3),數(shù)據(jù)中心應(yīng)制定詳盡的火災(zāi)場景下的服務(wù)連續(xù)性計劃。做好以Reduce(減小)為目標(biāo),追求零火險、零災(zāi)難和零中斷的風(fēng)險管理與日常運營計劃;做好滿足快速滅火、減少傷亡、減少損失、業(yè)務(wù)連續(xù)、信息安全、環(huán)境影響等多方面目標(biāo)要求的應(yīng)急響應(yīng)(Respond)和業(yè)務(wù)恢復(fù)計劃,確保數(shù)據(jù)中心設(shè)施資源能夠快速的恢復(fù)(Recover)到最低可接受的可用性水平,重續(xù)(Resume)數(shù)據(jù)中心服務(wù);還要事先做好災(zāi)后重建(Restore)計劃,確保數(shù)據(jù)中心有可用資源用于重建,盡快將數(shù)據(jù)中心服務(wù)水平返回(Return)到災(zāi)前水平。
文章編輯:CobiNet(寧波)
本公司專注于電訊配件,銅纜綜合布線系列領(lǐng)域產(chǎn)品研發(fā)生產(chǎn)超五類,六類,七類屏蔽網(wǎng)線/屏蔽模塊及相關(guān)模塊配件, 光纖及配件,我們是萬兆屏蔽模塊,10G屏蔽模塊,屏蔽線生產(chǎn)廠家,綜合布線實施公司。
歡迎來電咨詢0574 88168918,郵箱sales@cobinet.cn,網(wǎng)址78867.cn
?2016-2019寧波科博通信技術(shù)有限公司版權(quán)所有浙ICP備16026074號