Uptime Institute表示,數(shù)據(jù)中心中斷的修復(fù)成本更高,但其嚴(yán)重程度正在降低,發(fā)生的頻率也在降低。
數(shù)據(jù)中心中斷的嚴(yán)重程度似乎正在下降,而中斷成本繼續(xù)攀升。電源故障是“導(dǎo)致站點(diǎn)嚴(yán)重中斷的最大原因”。網(wǎng)絡(luò)故障和IT系統(tǒng)故障也會導(dǎo)致數(shù)據(jù)中心癱瘓,而人為錯(cuò)誤往往也是原因之一。
這些是Uptime Institute(正常運(yùn)行時(shí)間研究所)最近的數(shù)據(jù)中心中斷報(bào)告中指出的一些問題,該報(bào)告分析了中斷的類型、頻率以及其在金錢和后果方面的損失。
一、數(shù)據(jù)不可靠是一個(gè)持續(xù)存在的問題
Uptime警告道,考慮到一些中斷受害者缺乏透明度和報(bào)告機(jī)制的質(zhì)量,應(yīng)以懷疑的態(tài)度對待與中斷有關(guān)的數(shù)據(jù)。
"中斷信息是不透明且不可靠的,”Uptime研究執(zhí)行總監(jiān)Andy Lawrence在介紹Uptime的2023年度中斷分析時(shí)表示。
"雖然航空企業(yè)等一些行業(yè)有強(qiáng)制報(bào)告要求,但其他行業(yè)的報(bào)告有限。所以我們必須依靠自己的手段和方法來獲取數(shù)據(jù)。眾所周知,出于各種原因,并不是每個(gè)人都愿意分享有關(guān)中斷的詳細(xì)信息。有時(shí)會得到非常詳細(xì)的根本原因分析,而有時(shí)什么也得不到?!?/span>
Uptime報(bào)告從三個(gè)主要來源挑選數(shù)據(jù):Uptime的異常事件報(bào)告(AIRs)數(shù)據(jù)庫、自己的調(diào)查和公開報(bào)告,包括新聞報(bào)道、社交媒體、中斷跟蹤器和企業(yè)聲明。每種方法的準(zhǔn)確性各不相同。例如,公開報(bào)告可能缺乏細(xì)節(jié),來源可能不可靠。
Uptime將自己的調(diào)查評為產(chǎn)生公平/良好數(shù)據(jù),因?yàn)槭茉L者是匿名的,且其工作角色各不相同??諝赓|(zhì)量被認(rèn)為非常好,因?yàn)槠浒瑪?shù)據(jù)中心所有者和運(yùn)營商在同行之間共享的詳細(xì)的設(shè)施級數(shù)據(jù)。
二、中斷率略有下降
根據(jù)Uptime的說法,有證據(jù)表明近年來中斷率一直在逐漸下降。
這并不意味著中斷總數(shù)正在減少——事實(shí)上,隨著數(shù)據(jù)中心行業(yè)的擴(kuò)張,全球范圍內(nèi)的中斷數(shù)量每年都在增加。“這可能給人一種錯(cuò)誤印象,即與IT負(fù)載相關(guān)的中斷率正在增長,而事實(shí)恰恰相反。中斷頻率的增長速度不及IT或全球數(shù)據(jù)中心的擴(kuò)張速度。”Uptime報(bào)道到。
總體而言,Uptime觀察到每個(gè)站點(diǎn)的中斷率穩(wěn)步下降,這是通過其在2020年至2022年對數(shù)據(jù)中心管理人員和運(yùn)營商進(jìn)行的四項(xiàng)調(diào)查跟蹤得出的。到2022年,60%的調(diào)查受訪者表示其在過去三年,從2021年的69%和2020年的78%下降。
三、中斷嚴(yán)重程度似乎正在降低
歷史上,5級和4級(嚴(yán)重)中斷占所有中斷的20%左右。到2022年,嚴(yán)重/嚴(yán)重類別的中斷率下降到14%。
Uptime首席技術(shù)官ChrisBrown表示,一個(gè)關(guān)鍵原因是數(shù)據(jù)中心運(yùn)營商能夠更好地處理突發(fā)事件。只要在設(shè)計(jì)系統(tǒng)和管理操作方面做得更好,單個(gè)故障或故障不一定會導(dǎo)致嚴(yán)重或嚴(yán)重的中斷。
Brown表示,如今的系統(tǒng)具有冗余性,運(yùn)營商在創(chuàng)建能夠響應(yīng)異常事件和避免中斷的系統(tǒng)方面更加自律。
四、中斷造成的損失成本不斷增加
回顧Uptime過去四年的調(diào)查數(shù)據(jù),直接和間接成本超過10萬美元的重大中斷所占的比例正在增加。2019年,60%的中斷恢復(fù)成本低于10萬美元。到2022年,只有39%的中斷造成的損失低于10萬美元。
同樣在2022年,25%的受訪者表示,最近一次中斷造成的損失超過100萬美元;45%的受訪者表示,最近一次中斷造成的損失在10萬到100萬美元之間。
Brown表示,通貨膨脹是部分原因;更換設(shè)備和勞動(dòng)力的成本更高。
更重要的是企業(yè)在多大程度上依賴數(shù)字服務(wù)來開展業(yè)務(wù)。關(guān)鍵IT服務(wù)的損失可能直接導(dǎo)致業(yè)務(wù)中斷和收入損失。Brown表示:“任何這些中斷,尤其是嚴(yán)重和嚴(yán)重的中斷,都有能力影響多個(gè)組織和更大范圍的人群,而且必須緩解這種情況的成本不斷增加?!?/span>
五、第三方提供商是最引人注目的公共中斷的幕后推手 六、人為錯(cuò)誤是導(dǎo)致中斷的常見原因 七、電力問題繼續(xù)阻礙數(shù)據(jù)中心的可靠性 八、網(wǎng)絡(luò)的復(fù)雜性導(dǎo)致更多的中斷 九、IT系統(tǒng)和軟件中斷的常見原因 十、火災(zāi)并不常見,但可能是毀滅性的
導(dǎo)致網(wǎng)絡(luò)和連接相關(guān)中斷的兩個(gè)最常見原因是,配置或變更管理失敗(45%的受訪者提到),和第三方網(wǎng)絡(luò)提供商的失敗(39%)。
Uptime將這一趨勢歸因于當(dāng)今的網(wǎng)絡(luò)復(fù)雜性?!霸诂F(xiàn)代、動(dòng)態(tài)切換和軟件定義的環(huán)境中,管理和優(yōu)化網(wǎng)絡(luò)的程序會不斷修改或重新配置。錯(cuò)誤變得不可避免,在如此復(fù)雜和高吞吐量的環(huán)境中,頻繁的小錯(cuò)誤可以在網(wǎng)絡(luò)中傳播,導(dǎo)致難以停止、診斷和修復(fù)的級聯(lián)故障,”Uptime報(bào)道。