谷歌云宕機(jī)解決了?用戶風(fēng)險依然存在
日前,谷歌云(Google Cloud)服務(wù)宕機(jī)和性能下降的問題很快得到了修復(fù),最終對客戶的影響也比較有限,但它還是提醒客戶:他們必須向供應(yīng)商施加更多壓力,以提高云的可靠性。
3月11日,兩項谷歌云服務(wù)中斷:客戶用來管理他們的賬戶和項目的Google Cloud Console;以及Cloud Dataflow,這是一項用于處理批處理和流數(shù)據(jù)的服務(wù)。
根據(jù)谷歌的事后分析,由于其***版本的谷歌云配額系統(tǒng)的代碼更改,Cloud Console在4小時內(nèi)不可用。該bug導(dǎo)致系統(tǒng)退回到較低的速率限制,從而導(dǎo)致請求被拒絕。
而另一項造成系統(tǒng)滯后超過19小時的Cloud Dataflow問題在3月12日得到了全面解決。谷歌表示,事故原因仍在調(diào)查中。
與此同時,谷歌云存儲在3月12日經(jīng)歷了4小時的高錯誤率,以至影響了所有地區(qū)。根據(jù)事后報告,這個問題源于谷歌現(xiàn)場可靠性工程師(SREs)采取的行動。
3月11日,谷歌SREs發(fā)現(xiàn),連接到谷歌內(nèi)部Blob存儲服務(wù)元數(shù)據(jù)的存儲使用量激增。為了減少這種使用,SREs進(jìn)行了配置更改,導(dǎo)致系統(tǒng)中查找博客數(shù)據(jù)位置的部分過載,而增加的負(fù)載最終導(dǎo)致“連鎖故障”,谷歌說。
谷歌應(yīng)用程序引擎的相關(guān)中斷導(dǎo)致Blob Store API和應(yīng)用程序引擎部署出現(xiàn)了問題,這些問題也持續(xù)了大約四個小時。
報告稱,谷歌還計劃改進(jìn)其隔離存儲服務(wù)區(qū)域的方式,以避免未來谷歌云該中斷問題在全球的爆發(fā)。
總體云可靠性仍然是一個大目標(biāo)
所有云服務(wù)供應(yīng)商都會經(jīng)歷宕機(jī)問題。然而,考慮到谷歌云在市場份額上遠(yuǎn)遠(yuǎn)落后于AWS和Azure,它特別需要解決這個問題。Constellation Research分析師Holger Mueller稱,這是買方市場,盡管谷歌的快速補(bǔ)救措施和透明度對客戶來說也很有價值,但客戶將尋求最可靠的選擇。
然而,一些客戶可能擔(dān)心,在詳細(xì)描述谷歌云存儲中斷的報告中,谷歌指的是在區(qū)域之間增加更多的隔離。
Mueller說:“區(qū)域隔離是云計算正常運行時間和恢復(fù)能力的關(guān)鍵,如果供應(yīng)商不能做到這一點,這就會令人擔(dān)憂。”“他們要想知道谷歌是否成功地解決了這個問題,唯一的辦法就是等待它再次故障。”
IDC分析師Stephen Elliot表示,通過使用先進(jìn)的管理、編排和負(fù)載平衡技術(shù),計劃外的云服務(wù)中斷應(yīng)該會隨著時間的推移而減少。他表示:“這是企業(yè)客戶預(yù)期的一般參數(shù)。”