現(xiàn)如今,圍繞著業(yè)界的容量和性能方面相關的錯誤策略的例子可以說不勝枚舉。
例如,當Lady Gaga以僅99美分的售價在亞馬遜上架其專輯《Born This Way》后,瘋狂的粉絲們很快就使得亞馬遜龐大服務器資源被攻陷。同樣,當在線商城Target.com宣布進行一場龐大的銷售活動后,大量紛至沓來的網(wǎng)絡購物者的瘋狂涌入導致了其數(shù)據(jù)中心的崩潰。當然,還有最為著名的醫(yī)療保健網(wǎng)站HealthCare.gov發(fā)生崩潰的例子,一則廣告活動促使數(shù)百萬的美國用戶涌向該醫(yī)療保健網(wǎng)站的醫(yī)保項目,卻最終只能面對長時間的虛擬線路和無盡的錯誤信息。據(jù)估計,正是由于可用容量被大大超出,使得任何時候都有4萬多人被迫坐在虛擬候診室里等待。
上述這些例子都強調(diào)了在企業(yè)業(yè)務需求擴張之前,數(shù)據(jù)中心管理人員務必要確保對數(shù)據(jù)中心戰(zhàn)略保持提前規(guī)劃的重要性,同時還需要注意可能導致超出現(xiàn)有系統(tǒng)負載能力的突發(fā)高峰需求。而實現(xiàn)這一目標的途徑便是通過數(shù)據(jù)中心的容量規(guī)劃。
當企業(yè)組織忽略了他們數(shù)據(jù)中心的操作運營環(huán)境中正在發(fā)生或者可能發(fā)生的事情時,便有可能出現(xiàn)性能問題和容量不足的情況,這可能會導致企業(yè)營收受損,生產(chǎn)力下降以及客戶體驗下降。 容量管理供應商TeamQuest公司的前產(chǎn)品營銷經(jīng)理John Miecielica表示說,他現(xiàn)在是Stratagem, Inc.公司的顧問。
數(shù)據(jù)中心的管理人員們需要確保業(yè)務能力,服務能力,組件和資源能力均能夠以經(jīng)濟高效的方式滿足企業(yè)當前和未來的業(yè)務需求。這與管理和優(yōu)化基礎架構、應用程序和業(yè)務服務的性能息息相關。
老話說: 如果沒有壞,就不用修理 。在許多不同的情況下,這可能是一個可行的原則。然而,就數(shù)據(jù)中心的容量策略而言,如上文中所給出的一系列例子所示,這可能是一大致命性的理念。
Miecielica介紹說,歐洲的一處數(shù)據(jù)中心在實施了容量規(guī)劃后,該數(shù)據(jù)中心從只能執(zhí)行一些簡單的修復工作轉(zhuǎn)型為能夠基于精確容量預測實現(xiàn)恰當?shù)囊?guī)?;奶摂M環(huán)境。進而使得該企業(yè)組織避免了每月總共65000美元的基礎設施費用成本。此外,其所具備的找出瓶頸的功能還幫助該企業(yè)消除了數(shù)百臺性能表現(xiàn)不佳的虛擬機(VM)。
有用戶講述了一個類似的案例:Enterprise Rent-A-Car公司 、Alamo Car Rent A Car公司、National Car Rental和Enterprise CarShare的母公司Enterprise Holdings,Inc.(EHI)是全球范圍內(nèi)最大的汽車租賃服務供應商。在過去,該公司數(shù)據(jù)中心的容量預測和建模是通過人工手動所收集的數(shù)據(jù)完成的,這些數(shù)據(jù)被輸入到微軟Office Excel表格和Office Access數(shù)據(jù)庫軟件中。這項工作屬于資源密集型且容易出錯,也往往是不準確的。而在當前這樣一個競爭激烈的市場上,這顯然是EHI公司所不能承受的。緩慢的系統(tǒng)可能意味著數(shù)百分輛的汽車租賃信息在幾分鐘之內(nèi)就會丟失,以及在將車輛送到最需要的地方時出現(xiàn)延遲,從而導致客戶滿意度評分較低。
EHI公司的前IT系統(tǒng)架構師Clyde Sconce表示說: 我們曾經(jīng)在數(shù)據(jù)收集、預測增長以及季度和年度的預測等方面耗費了大量資源和無數(shù)的時間。
他所曾經(jīng)供職過的這家公司在數(shù)據(jù)中心戰(zhàn)略方面犯了一個共同的錯誤 過于簡化需求。這方面的一個例子是通過考慮CPU當前的使用情況來創(chuàng)建預測,然后使用線性趨勢來預測所有未來的需求。
如果你企業(yè)這樣做,你就會大錯特錯的。 Sconce說。
EHI公司部署實施了TeamQuest 公司的Surveyor以簡化預測,實現(xiàn)了流程自動化,并提高了準確性。這使得預測和報告能夠在必要時每周和每天更新。進而使得其數(shù)據(jù)中心能夠擺脫被動模式,隨時了解變化,并采取相應的措施以確保其系統(tǒng)從未遭受到Lady Gaga粉絲攻陷數(shù)據(jù)中心服務器般的事件。
容量預測輸入是從Surveyor獲得的,并結合從Java工具集合所收集的各種業(yè)務度量和數(shù)據(jù)。然后將其轉(zhuǎn)化為對CPU和業(yè)務增長的預測,每臺服務器美元成本的預測,與不同業(yè)務和管理人員相關的預測,甚至形成了檢查早期預測準確性的方法。
這里的重點不是試圖根據(jù)一個或兩個指標來預測未來。相反,EHI公司從各種數(shù)據(jù)來源提取了廣泛的參數(shù),包括服務器配置(包括當前和歷史配置信息),資源消耗情況(CPU,內(nèi)存,存儲)和業(yè)務交易(通過用戶代理)等數(shù)據(jù)庫信息。針對其UNIX AIX環(huán)境,諸如rPerf(相對性能)等指標幫助其數(shù)據(jù)中心了解是否需要添加或刪除CPU來提高性能。
Sconce提醒數(shù)據(jù)中心經(jīng)理們在研究數(shù)據(jù)中心策略時務必需要注意可能導致預測錯誤的異常情況。以新服務器的歷史數(shù)據(jù)不完整或不存在的情況為例。這可能導致一種異常情況,比如一臺相當新的服務器被預測為或?qū)⒂?00%的需求增長。
Sconce說: 我們仔細分析,并覆蓋了該預測中的數(shù)據(jù),并將其修正為服務器類似應用的已知增長率。壞的數(shù)據(jù)也需要被刪除,而且你企業(yè)必須留意基線跳躍,比如在業(yè)務增長率不變的情況下所發(fā)生的資源消耗的變化。
后者的一個例子可能是將兩臺服務器整合為一臺。在這種情況下,工作負載增加了一倍,但業(yè)務增長率并沒有變化。但Sconce表示說,最重要的一點是要確保數(shù)據(jù)預測與當前以及歷史業(yè)務交易保持一致,因為這最終代表了整個過程:企業(yè)如何推動數(shù)據(jù)中心的資源消耗;以及業(yè)務或市場需求的轉(zhuǎn)型將如何徹底改變企業(yè)內(nèi)部的資源需求。
EHI公司最為重要的統(tǒng)計數(shù)據(jù)是每小時租用的汽車數(shù)量。因此,Sconce總是將其轉(zhuǎn)化為與汽車每小時統(tǒng)計數(shù)據(jù)的關系,而不是為管理人員們提供難以理解的技術指標。他說,要實現(xiàn)這一目標,需要與業(yè)務負責人密切聯(lián)系,以準確地將業(yè)務交易與數(shù)據(jù)中心內(nèi)消耗的資源相關聯(lián),然后對企業(yè)的成本進行現(xiàn)實估計。
Sconce說: 把所有的數(shù)據(jù)和輸入的信息都混雜在一起是不太合適的。一個準確的預測必須使用一套復雜的分析工具,該工具可以執(zhí)行周期性趨勢分析、異常消除、基線變化、硬件變化、成本相關性和靈活的報告分組。
EHI公司最為依賴的是服務器級別的高峰時期需求的平均值。該公司還發(fā)現(xiàn),生成異常報告,以標記數(shù)據(jù)缺失或發(fā)生異常情況需要對其進行調(diào)查的服務器是非常有用的。
來自Sconce的最后一個提示是:基于周期性增長和線性預測對數(shù)據(jù)中心的容量進行預測是非常有益的。EHI公司會計算年度增長情況,但他們會基于每月的使用情況對該預測采用周期性的模式。這種數(shù)據(jù)中心策略的方法可以解決由于季節(jié)性需求高峰或促銷火爆而導致的潛在需求大漲。例如,一個線性投影可能會顯示應該在六月份進行采購,但是周期性數(shù)據(jù)則會突出顯示可能出現(xiàn)業(yè)務使用量激增的具體時間段。這允許EHI公司得以推遲資本支出,或者根據(jù)實際業(yè)務需求加快采購速度,而不是僅僅把預測的使用量作為有序進展。
通過這種方式實施容量規(guī)劃,我們大大減少了我們的資源待命時間。進而使得我們能夠?qū)崿F(xiàn)預測過程的自動化,并制定每日/每周的報告。 Sconce說。 TeamQuest Surveyor使我們能夠制定標準化的預測策略,并進行歷史預測跟蹤,以確定需要改進的領域。
數(shù)據(jù)中心的復雜性
雖然容量規(guī)劃一直都很重要,但在虛擬化,,BYOD,移動性和的時代,容量的重要性進一步獲得了提升。為了解決這個問題,Gartner公司的分析師Will Cappelli說,容量規(guī)劃需要借助預測分析技術的支持。
他說: 基礎設施將更加模塊化,分布式和動態(tài)化。想要使用傳統(tǒng)的容量規(guī)劃方案來有效地確保在正確的時間提供合適的資源幾乎是不可能的。
這需要能夠處理大量的數(shù)據(jù)點、輸入和指標以分析它們,量化各種事件的發(fā)生概率,并預測將來發(fā)生某些事件的可能性。因此,建議數(shù)據(jù)中心管理人員使用容量規(guī)劃工具,使他們能夠以可能運行各種 假設 情況的方式進行分析。這使他們能夠確定他們的確切要求,從而降低成本和風險。
Miecielica對此表示同意。他說,企業(yè)當前所面臨的挑戰(zhàn)是要了解如何對數(shù)據(jù)中心和企業(yè)中的所有數(shù)據(jù)進行分割和切分。通過將所有這些數(shù)據(jù)劃分為可執(zhí)行的信息,容量規(guī)劃人員可以以儀表盤的形式分享這些數(shù)據(jù),并使得業(yè)務人員們可以理解,進而將其作為制定業(yè)務決策的指標。
解決未來數(shù)據(jù)中心容量能力需求問題的必要性是迫切的。 OpsDataStore公司的首席執(zhí)行官Bernd Harzog表示,通過其與眾多企業(yè)用戶的對話,該公司確認了典型的數(shù)據(jù)中心服務器的容量運營能力在12%到18%之間。這一數(shù)據(jù)是在一份名為《數(shù)據(jù)中心效率評估》的報告中,由一家名為Anthesis Consulting Group的公司針對廣泛的數(shù)據(jù)中心從業(yè)人員的調(diào)查得出的。
Harzog說: 增加容量的標準方法是使用資源利用率閾值作為觸發(fā)器來采購更多的硬件,但是這會導致硬件采購過多,因為該方法并未考慮在基礎設施上運行的工作負載(應用程序)的需求。故而訣竅在于是否能夠提高利用率,而不會冒應用程序響應時間和吞吐量問題的風險。
最小化現(xiàn)代數(shù)據(jù)中心固有的復雜性的一種可能的方式是通過創(chuàng)建儀表板。例如,一家大型電信公司的數(shù)據(jù)中心經(jīng)理最近實施了容量管理,其目標是降低成本,避免風險和提高效率。
BMC公司的云管理、性能和可用性以及數(shù)據(jù)中心自動化總裁Bill Berutti表示說: 項目負責人首先需要專注于儀表板,項目的可見性以一種戲劇性的方式發(fā)生了巨大的變化,導致企業(yè)對于容量管理項目團隊的需求大漲。
此前,在這家電信公司的數(shù)據(jù)中心內(nèi),各種存儲,服務器和運營經(jīng)理們會定期舉行會議,決定在數(shù)據(jù)中心的那些領域需要花費預算資金。而該公司的第一個儀表板就為其存儲團隊提供了實際使用量的數(shù)據(jù),進而導致約40TB的存儲需求從其采購合同中刪除。
硬件超載
隨著當前的企業(yè)組織紛紛都在努力的削減數(shù)據(jù)中心的成本,他們需要削減的第一個領域可能便是規(guī)劃和管理工具,如容量規(guī)劃。然而,費用預算中的紅線可能會導致企業(yè)在硬件、軟件或網(wǎng)絡方面數(shù)百萬的超支。
Gartner公司的分析師Ian Head表示: 大多數(shù)企業(yè)在容量管理方面的投入都不足,其既充當了流程管理,同時也是支持流程所需的工具。
文章編輯:CobiNet(寧波)
本公司專注于電訊配件,銅纜綜合布線系列領域產(chǎn)品研發(fā)生產(chǎn)超五類,六類,七類線,屏蔽模塊,配線架及相關模塊配件的研發(fā)和生產(chǎn)。
?2016-2019寧波科博通信技術有限公司版權所有浙ICP備16026074號