乍一看是“宕機(jī)”,實(shí)際上是......
本周一,云頭條報(bào)道稱“Github.com 已掛了 8 個(gè)小時(shí):數(shù)據(jù)存儲設(shè)備壞掉了!” 許多用戶在Twitter上紛紛吐槽,抱怨網(wǎng)站宕機(jī),包括中國、日本的好多惴惴不安的程序員,一些人抱怨自己無法登錄進(jìn)去,或者分支版本丟失了,等等。
乍一看,又是“宕機(jī)”惹的禍??墒牵?,你怎么看?
疑點(diǎn)一:具體表現(xiàn)。
從美國西海岸時(shí)間周日下午4點(diǎn)開始,GitHub.com一直處于抽瘋的狀態(tài)。具體來說,該網(wǎng)站仍在提供頁面服務(wù),它只是間歇性地提供過期的文件,但忽略了提交上去的Gist、代碼錯(cuò)誤報(bào)告和帖子。有時(shí)候,它似乎在提供只讀緩存或它本身的舊備份,不過一些推送的新代碼無法發(fā)布到網(wǎng)站上。
官網(wǎng)故障
疑點(diǎn)二:官方聲明。
開發(fā)團(tuán)隊(duì)在下午5點(diǎn)后說:“我們在繼續(xù)努力遷移數(shù)據(jù)存儲系統(tǒng),以便恢復(fù)訪問GitHub.com的服務(wù)。”該團(tuán)隊(duì)隨后在過去的幾分鐘補(bǔ)充道:“我們在繼續(xù)修復(fù)GitHub.com的數(shù)據(jù)存儲系統(tǒng)。在此過程中您可能會看到不一致的結(jié)果。”
官網(wǎng)聲明
一般來說,像上面案例中提到的“遷移數(shù)據(jù)存儲系統(tǒng),以便恢復(fù)訪問GitHub.com的服務(wù)”,也是應(yīng)對IT事故、恢復(fù)業(yè)務(wù)的常規(guī)流程,無可厚非。然而在故障8小時(shí)候,仍舊無法提供業(yè)務(wù)支持,只能提供“舊備份”數(shù)據(jù)或者“不一致”的數(shù)據(jù),讓我不禁懷疑GitHub網(wǎng)站的數(shù)據(jù)有丟失的嫌疑。
作為一個(gè)面向開源及私有軟件項(xiàng)目的托管平臺,Github擁有超過900萬開發(fā)者用戶。在GitHub,用戶可以十分輕易地找到海量的開源代碼。這意味著每時(shí)每刻都有大量重要數(shù)據(jù)在GitHub匯集。如果真的丟失了部分?jǐn)?shù)據(jù),對GitHub來說可能只是一小丟丟,可是對最終用戶而言,則是100%的災(zāi)難。
雖說容災(zāi)備份領(lǐng)域早就突破了早期的“數(shù)據(jù)備份與恢復(fù)”范疇,而增加了“業(yè)務(wù)連續(xù)”方面的內(nèi)容,但數(shù)據(jù)才是根本,沒有數(shù)據(jù),談何業(yè)務(wù)?
在這一點(diǎn)上,我十分贊同容災(zāi)備份老牌廠商和力記易提出的“一個(gè)優(yōu)秀的容災(zāi)備份方案,數(shù)據(jù)可用是底線”的說法。
2015年底,筆者在一次行業(yè)會議上結(jié)識了和力記易公司的張總。當(dāng)時(shí)大會就數(shù)據(jù)安全的重要性進(jìn)行熱烈討論,在交流時(shí),有人提起前不久銀監(jiān)會通報(bào)了某銀行的數(shù)據(jù)丟失問題,為什么明明做了“雙機(jī)雙柜”,怎么還是不能“幸免于難”?和力記易的張總寥寥數(shù)語解開了這個(gè)疑問,“數(shù)據(jù)庫數(shù)據(jù)還在,但是發(fā)生了內(nèi)部邏輯錯(cuò)誤(比如ASM頭文件錯(cuò)誤),所以整個(gè)數(shù)據(jù)庫就不可用了。”
我開玩笑的問張總“雙機(jī)雙柜方案都解決不了問題,你們和力記易的容災(zāi)備份方案呢?”張總斬釘截鐵的說“我們可以!”
不論是何種數(shù)據(jù)備份,定時(shí)也好,實(shí)時(shí)也好,快照也好,鏡像也好,技術(shù)上的差別就決定了數(shù)據(jù)備份與恢復(fù)的不同結(jié)果。“備份數(shù)據(jù)”能忠實(shí)于“源數(shù)據(jù)”是最基本的,但是如果這份數(shù)據(jù)恢復(fù)回來以后無法使用,那這個(gè)恢復(fù)就沒有任何意義。和力記易容災(zāi)備份軟件——備特佳的CDP持續(xù)數(shù)據(jù)保護(hù)技術(shù),區(qū)別于市場其他備份軟件的最核心的一點(diǎn)就是:不僅能夠保證備份數(shù)據(jù)的完整性,更能保證恢復(fù)數(shù)據(jù)的可用性。這一點(diǎn),和力記易稱之為“容災(zāi)備份的底線”。
兩年前的經(jīng)歷現(xiàn)在卻歷歷在目,當(dāng)時(shí)是因?yàn)檎鸷?,今天被Github勾想了起來,卻是衷心的希望GitHub的事故,乍一看是“宕機(jī)”,實(shí)際上也是“宕機(jī)”,千萬不要丟失數(shù)據(jù),浪費(fèi)了忠實(shí)用戶的心血和成績。
所幸,發(fā)文時(shí),Github在歷經(jīng)了24小時(shí)磨難后,終于恢復(fù)正常,數(shù)據(jù)沒有丟失,真好。