計(jì)算機(jī)正常運(yùn)行最大的威脅是什么?是員工
之前有一個(gè)很老的笑話:“是人都會(huì)犯錯(cuò),但是要真正把事情搞砸,你還缺臺(tái)計(jì)算機(jī)。” 現(xiàn)在情況正好相反了,現(xiàn)如今,數(shù)據(jù)中心設(shè)備的可靠性已經(jīng)得到了極大的提升,反而是使用設(shè)備的人員素質(zhì)沒能跟上,從而給計(jì)算機(jī)正常運(yùn)行帶來了很大的威脅。
正常運(yùn)行時(shí)間協(xié)會(huì)(Uptime Institute)對(duì)數(shù)千名 IT 專業(yè)人員一整年發(fā)生的故障事件進(jìn)行了調(diào)查,得出結(jié)論表示絕大多數(shù)的數(shù)據(jù)中心故障是由于人為錯(cuò)誤造成的,人為錯(cuò)誤導(dǎo)致的故障率為 70%-75%。
而且有些故障很嚴(yán)重。調(diào)查發(fā)現(xiàn),超過 30% 的 IT 服務(wù)與數(shù)據(jù)中心運(yùn)營商經(jīng)歷了他們稱之為是“嚴(yán)重服務(wù)退化”的停機(jī)事故。2019 年有 10% 的受訪者稱他們最近的事故造成的損失超過 100 萬美元。
在正常運(yùn)行時(shí)間協(xié)會(huì)在 2019 年 4 月的調(diào)查中,60% 的受訪者認(rèn)為,對(duì)于最近發(fā)生的重大停機(jī)事件,他們本可以通過更好的管理/流程或配置進(jìn)行防止。而對(duì)于損失超過 100 萬美元的故障事件,這一數(shù)字躍升至 74%。
正常運(yùn)行時(shí)間協(xié)會(huì)認(rèn)為,導(dǎo)致故障事件發(fā)生的最終的錯(cuò)誤不一定是員工,而是令人失望的管理。
“這個(gè)行業(yè)仍然嚴(yán)重依賴于人工去完成一些最基礎(chǔ)和最重要的工作,易受人為錯(cuò)誤的影響,這一點(diǎn)無法避免,也許可做的防錯(cuò)/防災(zāi)措施很有限。”正常運(yùn)行時(shí)間協(xié)會(huì)期刊的主編 Kevin Heslin 在一篇 博客文章 中寫道。
“然而,對(duì)這些故障問題的快速調(diào)查發(fā)現(xiàn),故障持續(xù)存在的主要原因不是人為失誤,而是由于管理失誤導(dǎo)致,如針對(duì)員工培訓(xùn)投資不足,相關(guān)政策執(zhí)行不力,管理程序老舊,低估一名合格員工的重要性,這一系列的管理問題導(dǎo)致了故障停機(jī)。” Heslin 繼續(xù)寫道。
正常運(yùn)行時(shí)間協(xié)會(huì)指出,公司的 IT 基礎(chǔ)設(shè)施越復(fù)雜,特別是分布式特性基礎(chǔ)設(shè)施,可能會(huì)越容易增加簡(jiǎn)單的錯(cuò)誤層出不窮而導(dǎo)致業(yè)務(wù)中斷的風(fēng)險(xiǎn)。同時(shí)指出公司需要意識(shí)到基礎(chǔ)設(shè)施越復(fù)雜所涉及的風(fēng)險(xiǎn)就越大。
并警告說,在人員配備方面,不要以超過公司吸引和應(yīng)用資源來管理基礎(chǔ)設(shè)施的速度擴(kuò)大關(guān)鍵 IT 能力,并在影響關(guān)鍵任務(wù)操作之前意識(shí)到任何人員和技能短缺。