是互聯(lián)網(wǎng)、和大數(shù)據(jù)等產(chǎn)業(yè)的組成的重要基礎設施,盡管許多企業(yè)為了降低一系列的商業(yè)風險,包括那些數(shù)據(jù)中心的風險,有業(yè)務連續(xù)性計劃或災難恢復計劃,但有些企業(yè)卻沒有,或者他們就算是有計劃但也過于籠統(tǒng)。當你在制定數(shù)據(jù)中心災難恢復方案的時候,你的目標是為了保護公司在信息技術、通信和人員方面的投入。一旦遭到破壞,你的數(shù)據(jù)中心要么是完全不受影響要么就可能遭到徹底的毀壞。
通過對數(shù)據(jù)中心決策者的廣泛調查,商業(yè)分析企業(yè)451研究公司發(fā)現(xiàn),82%受訪者表示擁有某種形式的災難恢復(DR)計劃,這意味著將近五分之一的企業(yè)的災難恢復(DR)計劃沒有到位。研究發(fā)現(xiàn),93%的組織擁有業(yè)務連續(xù)性計劃(BCPs)。隨著數(shù)據(jù)中心越來越面臨著風險,如今的企業(yè)目前廣泛使用災難恢復解決方案,沒有什么理由和借口不制定這些計劃。
如何預防電氣火災這是企業(yè)必須要了解到的層面,首先在數(shù)據(jù)中心中添加一個聲音報警和兩個分解總線。在DR站點恢復了IR操作運營,而這也僅僅是針對最高級別的優(yōu)先系統(tǒng)。有了便攜式空調設備、臨時通信和小型不間斷供電設備,我們就可以恢復手機通訊。需要花費幾個星期的時間才能替換大型交換機燒毀的部件,但是,我們還是需要了解哪里出現(xiàn)了故障,以便杜絕再次發(fā)生此類事故。
以下使我們所發(fā)現(xiàn)的六個故障點,然后我們在災難恢復報告中做了記錄。
隱患點一:空調設備盡管我們配備了多個空調設備,但是這些設備都公用一個接線總機。只有兩個冗余單元和一組不間斷供電設備(簡稱UPS)室單元的電源是分開的,設計師認為這種思路是合乎邏輯的,但是,實際上這是否定了備用的想法。我們還未能夠正確設置總斷路器上的跳閘電流,工程師們和承包商還沒有調整好斷路器。因此,當一臺空調設備遇到問題時,主斷路器就會跳閘現(xiàn)象,而不是單個支路斷路器跳閘,這樣會造成80%的冷卻資源浪費。紅外線掃描可以在接線總機中完成,但是只有一部分空調設備能夠運行。未達到滿載,設備也不會溫度過高,因此,在測試過程中,我們也不會發(fā)現(xiàn)連接松動的現(xiàn)象。
第二個連線總機跟第一個連線總機一樣,在同一個電器柜中,這樣做的目的是滿足財務預算,因此,兩條電源總線是彼此相鄰的狀態(tài)。當一個發(fā)生爆炸時,也會同樣引爆第二個,然后我們就什么也沒有了。
隱患點二:數(shù)據(jù)中心設計在災難恢復報告中,我們所要檢查的另外一個項目就是數(shù)據(jù)中心設計。因為,一臺發(fā)電機要供整個大樓使用,轉換開關設置在地下室、接線總機的上方。并沒有感知到即將發(fā)生的電源故障,但是被毀壞的接線總機卻會阻止我們。共用一個發(fā)電機,我們本應該設置多個自動交換機提供數(shù)據(jù)中心內數(shù)據(jù)轉換。用這種方式,如果將電源引入到數(shù)據(jù)中心中,且建筑內其他設備未受影響,那么,發(fā)電機便會開始工作,數(shù)據(jù)中心也會恢復緊急電源的使用。
我們反對電氣室與數(shù)據(jù)中心相鄰過近,因為,我們不希望電氣涉及到計算環(huán)境中。我們曾忽視了這一點。電氣室空調設備運行正常,數(shù)據(jù)中心中設備停止運行,此時,電氣室會產(chǎn)生正壓。當門打開時,爆炸所產(chǎn)生的熱量和煙霧會隨之發(fā)散。
隱患點三:煙霧探測器的問題早期的預警煙霧探測器會立即識別危險,而且還可以控制氣體滅火,雖然其設置方式并非正確。因此,發(fā)現(xiàn)危險源時該探測器并不是發(fā)出警報,而是根據(jù)它感應到的煙霧,觸發(fā)其釋放氣體的功能。煙霧顆粒同樣可以污染其他正常運行設備的過濾器。唯一一個好消息是,與兩個備用設備一樣,電氣室內的空調設備都在同一個電路上,因此,可以繼續(xù)運行。沒有制冷設備,UPS會迅速升溫,然后關閉之前的計算機房。UPS應該走旁路,維護主機電源,但是,測試中我們卻發(fā)現(xiàn),旁路連接出現(xiàn)錯誤。只有一臺空調設備,受到損害的可能性非常大。
隱患點四:優(yōu)先等級UPS可以通過網(wǎng)絡進行按序服務關系,但是,由于存在優(yōu)先等級問題,這個想法一直也沒有實現(xiàn)。我們還了解到,其實并不需要Emergency Power Off按鈕,因此,也不會存在 高架活動地板 ,不需要使用任何限制。工程師們指出了該行業(yè)一些非常危險的按鈕, 因為每一個數(shù)據(jù)中心都會有一個危險按鈕, 但是其中并不包含任何防護按鈕,防止其被過早使用。
數(shù)據(jù)中心管理人員將會面臨無數(shù)個挑戰(zhàn)任務。我們要學會如何能夠將這些實際過程中會接觸到的任務進行優(yōu)先等級排列。
隱患點五:DCIM報警當我問到,數(shù)據(jù)中心基礎設施管理(簡稱DCIM)工具會提醒我主要警告,但是唯一的局限就是ASHRAE的允許溫度,這個溫度限制高于數(shù)據(jù)中心的實際冷卻溫度。由于冷卻溫度的設定是建立在之前的推薦溫度值的基礎上,而且要比推薦溫度更低,因此,在還未出發(fā)報警之前就已經(jīng)宣告失敗了,我們還需要花費很多時間來進行救災搶修。
DCIM還會顯示出,我們所設置的10個空調設備中有8個都宣布設置失敗,同時也陳述了失敗的原因和影響因素,我們沒有為DCIM系統(tǒng)購買機械設備模塊,因此,當冷卻單元裝置失靈時并沒有發(fā)出警告提示。這一點也會被記錄到災難恢復報告中。
隱患點六:缺乏訓練和標準實際工作中,我們需要進行多次DCIM培訓,GUI非常復雜,會提供許多詳細的數(shù)據(jù),使我們辨識起來非常困難。我們嘗試重新對GUI進行修訂,這樣,我們可以看得更加清晰明了,但是,其可配置性卻非常低。
IT應該包含在重要系統(tǒng)的選擇范圍內,在購買之前,進行同類測試,明確如何衡量其他軟件。我們非常清楚地知道,這并不屬于III級事故,正規(guī)認證將會披露這些漏洞。公司避免了許多承包備份和DR站點所引起的麻煩,因此,開發(fā)和測試計劃的失敗原因在于我們自己。作為災難恢復報告中的一部分,我們花費了許多時間、非常認真的審閱了DR站點合同,并且根據(jù)審閱過程中發(fā)現(xiàn)的問題提出了一些改善建議。在制定DR計劃時,我們也獲得了一些幫助,通過轉接操作,現(xiàn)在我們可以一年進行兩次測驗工作。
數(shù)據(jù)中心遭破壞后解決方案的實施
災難恢復方案應該是靈活的、可擴展的,這樣才能應對各種破壞場景。本文將提供數(shù)據(jù)中心的檢查清單,并給出在災難之后可以采取哪些行動的建議。這份清單將使得災難恢復變得更為簡單。當你在檢查一次破壞性事件對你的數(shù)據(jù)中心產(chǎn)生的后果時,請務必參考這份數(shù)據(jù)中心的檢查清單,或者是針對你自己的要求對它進行修改。當你完成了對于破壞情形的初步評估,并且對你的員工所處的位置滿意之后,再開始根據(jù)災難恢復方案采取行動。
制定數(shù)據(jù)中心災難恢復計劃時的若干假定一項數(shù)據(jù)中心災難恢復計劃僅僅關注于數(shù)據(jù)中心的設施和基礎設備,比如它的物理位置、建設、安全、能源、環(huán)境系統(tǒng)以及它的工作人員。你不光要考慮到數(shù)據(jù)中心運作的部分,也要考慮到支持它工作的人。這意味著在制定DR方案時,要滿足以下條件:1、數(shù)據(jù)中心技術和管理人員,包括所有的班次2、數(shù)據(jù)中心的建筑(比如,物理的基礎設施、建筑物、出入口位置、提升地板的區(qū)域)
3、建筑的位置(比如,進入路線、離高速公路、火車線路、飛機場有多近,離燃油儲存柜的距離)
4、電能的產(chǎn)生(比如,商業(yè)用電、備用電源系統(tǒng))
5、電能保護(比如,接地及連結、避雷針、線路調節(jié)器、電涌抑制器)
6、環(huán)境(比如,供暖、通風備以及空調)
7、關鍵系統(tǒng)(比如,服務器、配電裝置、VoIP系統(tǒng)、呼叫中心系統(tǒng))
8、網(wǎng)絡設備(比如,電纜、連接器、路由器、銅和光纖線路、電纜架)
9、安全(物理進入和信息安全)
10、工作空間(比如,辦公室、會議室、辦公小隔間、家居、照明)
11、防火(比如,火災探測器、煙霧探測器、滅火器、FM200滅火系統(tǒng))
12、建筑樓層和墻體(耐火墻、提升地板)
13、公共設施(比如,水、電、下水道、通信)
提升面對緊急情況時候的響應能力
作為災備規(guī)劃中及時響應的一部分要求,當我們在制定響應行動計劃的時候,如果房屋是租賃的或者自有的,那么需要和房屋管理部門或者設施管理部門協(xié)商,除此之外,IT部門也需要溝通。制定好響應計劃后,還需要復查一下和內部以及外部資源進行充分溝通以確保所有部門都萬無一失。
在災難恢復計劃設計過程中需要考量的因素如下:1、和不同IT部門之間的關系,比如內部技術團隊,應用團隊和網(wǎng)絡團隊等。以確保所有日常使用數(shù)據(jù)中心設施的團隊部門全部都在災難響應流程里。
2、與外部股票持有者之間的關系,比如廠商以及服務提供商。
3、如果公司油氣田辦公室的話,和其他辦公室之間的關系特需要考慮進去,因為他們也可能會是災難恢復規(guī)劃中的一部分。比如說要提高另外的數(shù)據(jù)中心機房等。
4、和架構相關的文檔,比如說建設規(guī)劃,樓面規(guī)劃,系統(tǒng)視圖,網(wǎng)絡拓撲以及設備配置信息等。
在災難響應的制定中需要考慮到以下的幾個方面:
1、管理層對數(shù)據(jù)中心最有威脅的幾個方面的認識,比如火災、人為操作不當、斷電、系統(tǒng)故障和安全問題。有可能管理層開始做的預想不符合實情,但需要在后面快速做出正確的改變。
2、管理層需要意識到數(shù)據(jù)中心里最容易出問題的環(huán)節(jié),比如說,陳舊的備份電力保障系統(tǒng)。
3、之前數(shù)據(jù)中心故障的處理結果,比如,如何應對情況的以及我們從中學到了些什么。
4、管理層對數(shù)據(jù)中心宕機能接受的最長時間是多少。
5、行業(yè)現(xiàn)有的應對數(shù)據(jù)中心宕機的準則是怎樣的。
6、從其他數(shù)據(jù)中心災難恢復經(jīng)驗中學到的。
7、受訓過的數(shù)據(jù)中心緊急響應團隊處理突發(fā)事件的能力。
8、主數(shù)據(jù)中心和備用數(shù)據(jù)中心服務提供商的緊急響應能力以及兩個數(shù)據(jù)本身的緊急響應能力。如果之前使用過,那么當時用的時候遇到過問題嗎?此外還需要了解服務的成本以及服務合同目前的情況。
文章編輯:CobiNet(寧波)
本公司專注于電訊配件,銅纜綜合布線系列領域產(chǎn)品研發(fā)生產(chǎn)超五類,六類,七類屏蔽網(wǎng)線/屏蔽模塊及相關模塊配件, 我們是萬兆屏蔽模塊,10G屏蔽模塊,屏蔽線生產(chǎn)廠家。
歡迎來電咨詢0574 88168918,郵箱sales@cobinet.cn,網(wǎng)址78867.cn
?2016-2019寧波科博通信技術有限公司版權所有浙ICP備16026074號