微軟Windows Azure計算云發(fā)生全局故障
微軟Windows Azure云日前在全球范圍內(nèi)發(fā)生部分計算停運(yùn)事故,這讓我們不禁要問:微軟到底是如何對其服務(wù)進(jìn)行有效劃分的?
根據(jù)微軟公司的服務(wù)信息面板顯示,問題出現(xiàn)在早上2:35(UTC),而且一直延續(xù)至當(dāng)天晚上10:20(UTC)。
“在云服務(wù)上以手動操作執(zhí)行交換部署可能產(chǎn)生錯誤,這將導(dǎo)致一部分服務(wù)管理功能受限,”微軟解釋稱。
Azure的每一個區(qū)域——即使地理跨度相當(dāng)遙遠(yuǎn)且歸屬于完全不同的數(shù)據(jù)中心群——都受到了影響,其中包括:美國西部、歐洲西部、亞洲東南部、美國中南部、歐洲北部、美國中北部、亞洲東部以及美國東部。
“我們正在采取一切必要措施,希望盡快緩解這一事件給托管服務(wù)造成的影響。進(jìn)一步信息更新將在兩小時之內(nèi)公布,幫助大家了解***情況。我們對于此次事件給客戶們帶來的任何不便深表歉意,”微軟公司晚上10點(UTC)這樣寫道。
交換部署操作允許開發(fā)人員在分段及生產(chǎn)環(huán)境之間進(jìn)行虛擬IP地址交換。交換部署是一種異步操作,需要與Azure管理服務(wù)進(jìn)行交互。盡管并不屬于這套IaaS云的主要組件,但停運(yùn)事故仍然會給那些重量級用戶造成不良影響。此外,涉及范圍如此之廣的全局停運(yùn)也很可能損害用戶對微軟規(guī)?;?wù)管理能力的信心。

信息面板提示……對于云體系來說,全局故障絕對是可能發(fā)生的最糟糕的事態(tài)。
除了計算服務(wù)的一個子組件發(fā)生全局故障,Azure云的網(wǎng)站功能同樣在世界范圍內(nèi)遭遇問題。由于交換部署服務(wù)失效,“FTP數(shù)據(jù)訪問”也于當(dāng)天下午7點(UTC)出現(xiàn)連帶故障。
云計算所帶來的***擔(dān)憂就是問題會對所有區(qū)域同時造成影響。此次事故也標(biāo)志著微軟在同一年中第二次遭遇并發(fā)式全局故障。
上一次讓微軟出糗的是某失效安全證書,它直接使全球范圍內(nèi)的Windows Azure存儲服務(wù)陷入癱瘓。這一次的問題則由另一個更無足輕重的小小組件所引發(fā)。事實上,面對頻繁的全局失效,我們不禁要對微軟可能已經(jīng)落實到位的區(qū)域劃分政策提出強(qiáng)烈控訴。