IDC掛了你咋辦?從世紀(jì)互聯(lián)斷電事件談起
原創(chuàng)【51CTO獨(dú)家特稿】對(duì)于世紀(jì)互聯(lián)而言,今天無疑是個(gè)黑色星期五。從周四下午5點(diǎn)左右開始,世紀(jì)互聯(lián)天津塘沽運(yùn)營商核心機(jī)房開始斷電,對(duì)外公布的斷電原因是大鏟車意外將機(jī)房電纜挖斷。之后,斷電一直持續(xù)了16個(gè)小時(shí)以上,傲游瀏覽器、豌豆莢、新浪郵箱、愛詞霸等多家企業(yè)的服務(wù)受到不同程度的影響,直到今天早上9點(diǎn)-11點(diǎn),一些主要的服務(wù)才逐步恢復(fù)。
超過12個(gè)小時(shí)的電力中斷,對(duì)于配備雙路/三路市電、UPS和柴油發(fā)電機(jī)的標(biāo)準(zhǔn)機(jī)房而言,似乎是個(gè)不可想象的事情;根據(jù)業(yè)內(nèi)人士分析,意外停電的情況,一般在3-5小時(shí)之內(nèi)肯定能恢復(fù)電力了;這次事故與其說是電纜被挖斷,倒更像是光纜被挖斷所造成的。應(yīng)該說,這次的事故是有疑點(diǎn)的,而這疑點(diǎn)由于世紀(jì)互聯(lián)目前尚未公布具體的事故報(bào)告,暫時(shí)還無法了解細(xì)節(jié),恐怕需要等待世紀(jì)互聯(lián)將事故報(bào)告和賠償方案提交給他們的客戶之后,才會(huì)有一些詳細(xì)的情況公布出來。
事故的處理目前已經(jīng)暫告一段落,對(duì)于以上遭受波及的企業(yè)而言,在將服務(wù)恢復(fù)正常的同時(shí),一方面要出事故報(bào)告,另一方面也有賠償?shù)氖乱獏f(xié)商(賠償?shù)姆绞胶徒痤~一般都在企業(yè)和IDC的服務(wù)條款當(dāng)中,協(xié)議內(nèi)容一般都是保密的,因此每家企業(yè)的情況都不一樣)。對(duì)于其他企業(yè)的IT管理人員而言,如何在發(fā)生類似意外事故的時(shí)候盡可能的減少負(fù)面影響,才是我們最需要關(guān)注的事情。
為此,51CTO編輯聯(lián)系了一位對(duì)IDC相當(dāng)熟悉的業(yè)內(nèi)人士cno,請(qǐng)他介紹了一下有關(guān)IDC的選擇,以及緊急情況如何處理的一些問題。
如何選擇IDC
根據(jù)cno的介紹,一般企業(yè)在選擇機(jī)房的時(shí)候,大多數(shù)會(huì)考慮代理商,也可以直接租用電信、聯(lián)通等運(yùn)營商的機(jī)房。代理商的優(yōu)勢(shì)在于多線全國互聯(lián),價(jià)格一般也便宜一些;而直接接入運(yùn)營商機(jī)房的好處則在與少了一層中間環(huán)節(jié),出問題的概率較小,出問題后解決問題的效率也高。
對(duì)于規(guī)模較大、成本控制方面比較寬松的企業(yè),技術(shù)部門在提方案的時(shí)候,一般只會(huì)考慮業(yè)界信譽(yù)好的幾家IDC,根據(jù)服務(wù)器量和帶寬的需求,一般需求高的都會(huì)獲得一些優(yōu)惠。另外,也會(huì)根據(jù)企業(yè)的其他應(yīng)用進(jìn)行調(diào)整,比如使用了藍(lán)訊的CDN的企業(yè),那么合理的方案則是將自己的源站放在藍(lán)訊的IDC。
冗余災(zāi)備方面的考慮
冗余方案可以說是應(yīng)對(duì)此類事故的唯一解決方案,不過出于成本的考慮,不少企業(yè)省下了這一步,其實(shí)是非常危險(xiǎn)的。這次豌豆莢和新浪郵箱都沒有遭遇完全的服務(wù)中斷,而傲游和愛詞霸的核心業(yè)務(wù)則徹底不能訪問,正是由于這一點(diǎn)區(qū)別。
核心中心做冗余的費(fèi)用較高,這樣的話做一個(gè)備份節(jié)點(diǎn)也是可以的,不過別放在同一個(gè)機(jī)房,否則遇到今天這樣的事故也是白搭。一般在北京的公司,備份節(jié)點(diǎn)放在廊坊的很多,因?yàn)橘M(fèi)用較低。
發(fā)生了事故怎么辦?
如果你之前做過冗余方案或異地備份,那么直接切換過去就是了,備份的情況切換要復(fù)雜一些,服務(wù)質(zhì)量肯定會(huì)受到一些影響,但不會(huì)徹底死掉。要是之前什么災(zāi)備方案都沒做的話,就只能干等了……是了,你可以在焦急的等待中考慮未來的災(zāi)備方案應(yīng)該如何做。
***,51CTO編輯還想補(bǔ)充的一點(diǎn)是,面對(duì)怨念沖天的用戶,早點(diǎn)公開事故的原因,向用戶道歉,并實(shí)時(shí)更新***的進(jìn)展情況,要遠(yuǎn)遠(yuǎn)勝過對(duì)用戶不聞不問,拋下一條冷冰冰的、言語不詳?shù)耐ǜ?。在服?wù)中斷或不穩(wěn)定的時(shí)候,如何向用戶作交代,讓用戶感到受重視,其實(shí)重要度并不亞于盡快恢復(fù)服務(wù)的工作。
【編輯推薦】