兩種策略可保護(hù)企業(yè)免受下一次大規(guī)模技術(shù)故障的影響
7月的CrowdStrike事件清楚地展示了允許軟件供應(yīng)商深入訪問(wèn)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的風(fēng)險(xiǎn),這也引發(fā)了人們對(duì)數(shù)字服務(wù)集中在少數(shù)幾家公司手中的擔(dān)憂。一篇預(yù)見(jiàn)性的Reddit帖子指出,CrowdStrike對(duì)于世界上許多最大企業(yè)來(lái)說(shuō)是一個(gè)威脅載體,同時(shí)也是一個(gè)數(shù)據(jù)的金礦。
鑒于7月19日CrowdStrike失敗更新后引發(fā)的全球計(jì)算機(jī)停機(jī)事件,審慎的高管們正在問(wèn):“我如何防止類似的事情再次發(fā)生?”
隨著大型科技公司市場(chǎng)集中度的提高,類似的大規(guī)模故障完全有可能再次發(fā)生。根據(jù)Synergy Research Group的數(shù)據(jù),三大領(lǐng)先的云服務(wù)提供商——Amazon、Microsoft和Google——占據(jù)了全球市場(chǎng)的67%,其中,僅Amazon在2023年底就占據(jù)了31%的市場(chǎng)份額。
有兩種策略可以減輕類似軟件故障的影響:多樣化網(wǎng)絡(luò)基礎(chǔ)設(shè)施和模擬故障處理。在討論防御措施之前,我們先來(lái)討論一下引入CrowdStrike或其他第三方軟件供應(yīng)商進(jìn)入企業(yè)所帶來(lái)的風(fēng)險(xiǎn)。
CrowdStrike崩潰事件只是冰山一角
將設(shè)備訪問(wèn)權(quán)限授予外部軟件或服務(wù)供應(yīng)商會(huì)帶來(lái)以下風(fēng)險(xiǎn):
? 失去對(duì)網(wǎng)絡(luò)功能的訪問(wèn)(如CrowdStrike事件中所發(fā)生的那樣)
? 數(shù)據(jù)的未經(jīng)授權(quán)訪問(wèn)(你的知識(shí)產(chǎn)權(quán)和客戶數(shù)據(jù)安全嗎?)
? 通過(guò)聚合數(shù)據(jù)對(duì)你的業(yè)務(wù)活動(dòng)進(jìn)行可視化監(jiān)控
此外,你的數(shù)據(jù)安全現(xiàn)在依賴于網(wǎng)絡(luò)安全公司或云服務(wù)提供商的安全實(shí)踐。
考慮一下“移動(dòng)設(shè)備管理”或“設(shè)備監(jiān)控”工具,它們中的大多數(shù)實(shí)際上都是rootkit,可以讓第三方100%控制你公司的設(shè)備。對(duì)于任何擁有專有知識(shí)產(chǎn)權(quán)并希望保密的公司來(lái)說(shuō),這種做法似乎都不明智。
沒(méi)錯(cuò),CrowdStrike確實(shí)搞砸了,并以一種極其壯觀的方式導(dǎo)致數(shù)百萬(wàn)臺(tái)Windows計(jì)算機(jī)癱瘓,但這只是冰山一角,更大的威脅——我們集體而方便地忽視了——是某個(gè)外部實(shí)體掌控了你的業(yè)務(wù)運(yùn)營(yíng)。
高級(jí)安全軟件至關(guān)重要,但你在提供安全儀表板的名義下將網(wǎng)絡(luò)的鑰匙交給了別人。
人們擔(dān)心Facebook的跟蹤,并關(guān)閉第三方Cookies以保護(hù)私人生活,但像CrowdStrike這樣的軟件可以監(jiān)視、跟蹤每一臺(tái)公司電腦,從最底層的實(shí)習(xí)生到CEO。與之相比,Cookies只是小問(wèn)題。
現(xiàn)在,即使CrowdStrike本身是可靠的,他們的軟件也按預(yù)期運(yùn)行,但如果有人入侵了CrowdStrike會(huì)怎樣?理論上,攻擊者可能會(huì)獲得航空公司網(wǎng)絡(luò)、銀行網(wǎng)絡(luò)以及全球各大企業(yè)的訪問(wèn)權(quán)限,這讓我感到擔(dān)憂。如果你給予某個(gè)供應(yīng)商如此廣泛的網(wǎng)絡(luò)訪問(wèn)權(quán)限,這種風(fēng)險(xiǎn)必須被評(píng)估。
那么,作為CIO或CISO,你如何減少這些大型科技公司發(fā)生另一場(chǎng)大規(guī)模故障的風(fēng)險(xiǎn)呢?
為失敗做好準(zhǔn)備:規(guī)劃、演練、預(yù)期
減少大規(guī)模系統(tǒng)故障的關(guān)鍵在于為災(zāi)難性事件做好規(guī)劃,并演練應(yīng)對(duì)措施。將應(yīng)對(duì)失敗的過(guò)程納入日常業(yè)務(wù)實(shí)踐中。當(dāng)失敗是出乎意料且罕見(jiàn)時(shí),處理它的流程往往未經(jīng)測(cè)試,甚至可能導(dǎo)致使情況惡化的行動(dòng)。
建立一個(gè)能夠適應(yīng)和應(yīng)對(duì)故障的網(wǎng)絡(luò)和團(tuán)隊(duì)。記得保險(xiǎn)公司以前運(yùn)行自己的數(shù)據(jù)中心,并每年進(jìn)行兩次災(zāi)難恢復(fù)測(cè)試嗎?如今很少有公司在應(yīng)急計(jì)劃上做到如此徹底,但一些公司,如Netflix,通過(guò)混沌工程樹(shù)立了良好的榜樣。Netflix的Chaos Monkey開(kāi)源軟件通過(guò)引入故意的系統(tǒng)中斷,模擬現(xiàn)實(shí)世界中的故障,以測(cè)試系統(tǒng)的彈性。
要像Netflix,而不是像Delta Airlines那樣:在CrowdStrike更新后,Delta的關(guān)鍵機(jī)組人員跟蹤系統(tǒng)大部分時(shí)間都處于離線狀態(tài),幾乎持續(xù)了一周。
多樣化你的供應(yīng)商和系統(tǒng)
減少大規(guī)模故障的第二個(gè)策略是避免因數(shù)字技術(shù)供應(yīng)商的集中化而造成的軟件單一化。這雖然更復(fù)雜,但值得嘗試。
一些公司有一項(xiàng)政策,即從三到四個(gè)不同的供應(yīng)商那里購(gòu)買核心網(wǎng)絡(luò)設(shè)備。雖然這使得日常管理變得稍微困難一些,但他們有信心,即使一個(gè)供應(yīng)商出現(xiàn)問(wèn)題,他們的整個(gè)網(wǎng)絡(luò)也不會(huì)癱瘓。無(wú)論是在技術(shù)領(lǐng)域還是生物學(xué)中,單一文化都極易受到能夠摧毀整個(gè)系統(tǒng)的流行病的攻擊。
在CrowdStrike的情境下,如果公司網(wǎng)絡(luò)是Windows、Linux和其他操作系統(tǒng)的混合體,那么損害就不會(huì)如此廣泛。
對(duì)于“多樣化系統(tǒng)”這一觀點(diǎn),2022年7月加拿大的Rogers Communications網(wǎng)絡(luò)中斷就是一個(gè)例子,這家加拿大電信提供商經(jīng)歷了一次重大服務(wù)中斷,導(dǎo)致其有線互聯(lián)網(wǎng)和移動(dòng)網(wǎng)絡(luò)服務(wù)停止,影響了超過(guò)1200萬(wàn)用戶,持續(xù)時(shí)間長(zhǎng)達(dá)26小時(shí)。
恢復(fù)工作受到阻礙,因?yàn)镽ogers的員工通常是使用Rogers的蜂窩和互聯(lián)網(wǎng)系統(tǒng)的用戶,而這些系統(tǒng)當(dāng)時(shí)崩潰了。那些不在辦公室的員工無(wú)法訪問(wèn)互聯(lián)網(wǎng),甚至無(wú)法使用他們的手機(jī)。一份第三方審查報(bào)告指出,Rogers的員工在中斷發(fā)生14小時(shí)后才得以訪問(wèn)記錄故障根本原因的關(guān)鍵錯(cuò)誤日志。
結(jié)論
第三方軟件供應(yīng)商和云服務(wù)已經(jīng)成為IT領(lǐng)域不可或缺的一部分,但如果我們想要將業(yè)務(wù)風(fēng)險(xiǎn)降到最低,就必須抵制將所有雞蛋放在一個(gè)籃子里的誘惑。
從CrowdStrike事件中得到的教訓(xùn)是:多樣化你的供應(yīng)商和系統(tǒng),并重新審視你的應(yīng)急計(jì)劃。