VMware也玩停機(jī)——首次停機(jī)后的恢復(fù)工作中遭遇二次停機(jī)
原創(chuàng)Cloud Foundry服務(wù)器接連遭遇停機(jī)
VMware公司在對(duì)其推出的新云計(jì)算服務(wù)器進(jìn)行停機(jī)恢復(fù)時(shí),無(wú)意中于次日造成了第二次停機(jī),此情況目前已得到該公司證實(shí)。
VMware新的Cloud Foundry服務(wù)器——仍處于測(cè)試階段——在上一周遭遇了超過(guò)兩天的停機(jī)問(wèn)題,而就在不久之前,剛剛發(fā)生了廣為人知的Amazon彈性云計(jì)算服務(wù)大停機(jī)事件。
Cloud Foundry,一款平臺(tái)即服務(wù)產(chǎn)品,為開發(fā)人員在網(wǎng)頁(yè)應(yīng)用程序的構(gòu)建及組織方面提供所必需的支持,于今年四月十二日發(fā)布,但旋即于同月二十五及二十六日接連發(fā)生“服務(wù)中斷”事故。
***次停機(jī)事件的起因是某供電柜發(fā)生故障。應(yīng)用程序仍能夠在線訪問(wèn),但開發(fā)人員無(wú)法執(zhí)行類似登錄或創(chuàng)建新應(yīng)用程序等操作。該次停機(jī)持續(xù)了近十小時(shí),并于當(dāng)天下午得到修復(fù)。
但就在第二天,當(dāng)VMware公司的官方工作人員嘗試實(shí)施先期檢測(cè)方案以避免前一天的事故再次發(fā)生時(shí),意外導(dǎo)致了新一輪停機(jī)。
VMware公司的官方發(fā)言人Dekel Tankel解釋說(shuō),四月二十五號(hào)的供電中斷是“隨時(shí)可能發(fā)生的意料內(nèi)事故,”而VMware公司已經(jīng)通過(guò)對(duì)相關(guān)軟件、監(jiān)控系統(tǒng)以及運(yùn)作模式方面的強(qiáng)化來(lái)確??蛻舨粫?huì)因系統(tǒng)停電而無(wú)法接入服務(wù)。
考慮到這一點(diǎn),VMware公司第二天就開始部署“一套全面的、用以進(jìn)行先期檢測(cè)、預(yù)防以及恢復(fù)操作的方案”。
“上午八點(diǎn)鐘(四月二十六號(hào))該方案開始由我們的執(zhí)行及工程團(tuán)隊(duì)進(jìn)行審查,并預(yù)計(jì)會(huì)在中午時(shí)得到初步認(rèn)定,”Tankel寫道。“當(dāng)時(shí)這套方案還只停留在理論層面,我們的計(jì)劃是先進(jìn)行模擬實(shí)踐練習(xí)(即在不觸動(dòng)鍵盤按鍵的前提下進(jìn)行部署練習(xí)),直到審查工作徹底完成。不幸的是,當(dāng)天上午十點(diǎn)十五分,執(zhí)行團(tuán)隊(duì)中的某位方案規(guī)劃工程師觸動(dòng)了鍵盤。這直接導(dǎo)致了整套Cloud Foundry網(wǎng)絡(luò)基礎(chǔ)設(shè)施的停轉(zhuǎn)。該操作使得所有負(fù)載平衡器、路由器和防火墻都被清空;造成了我們的部分內(nèi)部DNS基礎(chǔ)設(shè)施停轉(zhuǎn);同時(shí)導(dǎo)致全部外部連接都無(wú)法接入Cloud Foundry。”
在接連發(fā)生的兩次停機(jī)中,第二天的停機(jī)尤為嚴(yán)重。
“這是我們面臨的***次停機(jī)問(wèn)題,這是一次很大的事故,我們需要臨時(shí)布置系統(tǒng)維護(hù)頁(yè)面,”Tankel繼續(xù)說(shuō)道。“在停機(jī)過(guò)程中,所有的應(yīng)用程序及系統(tǒng)組件仍在繼續(xù)運(yùn)行。然而,隨著前端網(wǎng)絡(luò)的失靈,所有外部用戶都無(wú)法應(yīng)用服務(wù),因此只有我們自己知道設(shè)備仍能工作。當(dāng)日美國(guó)太平洋時(shí)間上午十一點(diǎn)三十分,前端網(wǎng)絡(luò)運(yùn)行全面恢復(fù)。”
VMware公司第二次停機(jī)事故表明了人為失誤在云服務(wù)網(wǎng)絡(luò)故障中所占的比重之大,正如Amazon在對(duì)其云服務(wù)中斷進(jìn)行深入分析后得出的結(jié)論一樣。在Amazon事件中,系統(tǒng)升級(jí)過(guò)程中的一次人為失誤引發(fā)了極大的麻煩,造成的嚴(yán)重后果耗費(fèi)了數(shù)天才得以完全修復(fù)。(詳細(xì)內(nèi)容可參考:“Amazon:計(jì)劃升級(jí)過(guò)程中的操作失誤導(dǎo)致停機(jī)”)
VMware公司,一直以其服務(wù)器虛擬化技術(shù)而著稱,是公開類云服務(wù)領(lǐng)域的后起之秀。在此之前,VMware公司的主要業(yè)務(wù)是幫助客戶及服務(wù)供應(yīng)商建立自己的云平臺(tái)。
因?yàn)榫湍壳皝?lái)看,Cloud Foundry還屬于一項(xiàng)新興的業(yè)務(wù),因此服務(wù)器停機(jī)并未對(duì)太多客戶造成影響,至少不像Amazon事件的影響那么巨大,因?yàn)楹笳甙l(fā)生故障的同時(shí),導(dǎo)致了無(wú)數(shù)依賴于其基礎(chǔ)設(shè)施的其它站點(diǎn)陷入癱瘓。但VMware公司無(wú)疑已經(jīng)從這次事件中吸引了教訓(xùn),想要成為服務(wù)供應(yīng)商,一定要對(duì)極端情況做好充分的心理準(zhǔn)備。
原文名:VMware causes second outage while recovering from first 作者:Jon Brodkin
【本文乃51CTO精選譯文,轉(zhuǎn)載請(qǐng)標(biāo)明出處!】
【編輯推薦】
- 使用Microsoft Azure 讓云遷移變得簡(jiǎn)便的5種方法
- VMware的混合云遷移工具:vCloud Connector
- 企業(yè)CRM等業(yè)務(wù)系統(tǒng)遷移到 "云"中的***實(shí)現(xiàn)
- 云計(jì)算該“遷移”還是“自建”?
- 云遷移全攻略:哪些應(yīng)用適合遷移
- 亞馬遜 谷歌 微軟三大試用云服務(wù)大比拼(上)
- 亞馬遜推出1年免費(fèi)云計(jì)算服務(wù)
- 私有云方案提供商點(diǎn)評(píng):VMware的優(yōu)缺點(diǎn)
- IT故事:VMware未來(lái)云之路會(huì)面臨哪些挑戰(zhàn)?
- VMware推出首款開放PaaS平臺(tái)Cloud Foundry