騰訊云“數(shù)據(jù)丟失”引思考:云服務究竟安全不安全?
近日,創(chuàng)業(yè)公司“前沿數(shù)控”針對騰訊云的一篇檄文引發(fā)了行業(yè)關(guān)注。前沿數(shù)控發(fā)文稱,公司放在騰訊云服務器上的數(shù)據(jù)全部丟失且無法恢復。
對于造成用戶數(shù)據(jù)丟失的問題,騰訊云在隨后的回應中予以承認并進行了道歉,但讓雙方形成分歧是賠償金額。據(jù)悉,前沿數(shù)控提出了 1100 萬余元的索賠,而騰訊云提出的“賠償+補償”總金額為 13 萬余元,二者相差甚遠。
不過該事件經(jīng)過多日發(fā)酵后,8 月 8 日晚間,前沿數(shù)控對外宣稱,基于盡快恢復“前沿數(shù)控”平臺業(yè)務運營的共同出發(fā)點,經(jīng)過充分的溝通,“前沿數(shù)控”與騰訊云誤會已經(jīng)消除,雙方已制定出雙方認可的業(yè)務解決方案。
但解決方案的具體細節(jié),包括此前引發(fā)爭議的賠償金額,雙方均未透露。對于騰訊云和前沿數(shù)控來說,雙方之間達成共識,該事件也可以告一段落。
但實際上,這件事不僅僅是給當事雙方造成了影響,也為整個行業(yè)敲響了警鐘。在云服務已經(jīng)無處不在的今天,數(shù)據(jù)的重要性毋庸置疑,但其安全性究竟能否得到保證以及該如何保證,現(xiàn)在似乎又需要畫上一個問號。
小概率事件引發(fā)大問題
根據(jù)騰訊云 8 月 7 日披露的信息顯示,該故障起源于因磁盤靜默錯誤導致的單副本數(shù)據(jù)錯誤,再加上數(shù)據(jù)遷移過程中的兩次不規(guī)范的操作,導致云盤的三副本安全機制失效,并最終導致客戶數(shù)據(jù)完整性受損。
這兩次違規(guī)操作分別是運維人員為了加速完成搬遷任務,違規(guī)關(guān)閉了數(shù)據(jù)校驗;以及運維人員為了盡快降低倉庫使用率,違規(guī)對源倉庫進行了數(shù)據(jù)回收。
在正常情況下,數(shù)據(jù)搬遷流程會默認開啟數(shù)據(jù)校驗,開啟之后可以有效發(fā)現(xiàn)并規(guī)避源端數(shù)據(jù)異常,從而保障搬遷數(shù)據(jù)正確性。而數(shù)據(jù)搬遷完成之后,源倉庫數(shù)據(jù)應保留 24 小時,用于搬遷異常情況下的數(shù)據(jù)恢復。
一位熟悉該操作流程的業(yè)內(nèi)人士告訴 21 世紀經(jīng)濟報道記者,整個事件的根本原因是極小概率出現(xiàn)的“磁盤靜默錯誤”發(fā)生了。若磁盤靜默錯誤沒有發(fā)生,運維人員的上述操作也不會引發(fā)后面這些問題。“一般這種遷移不會出現(xiàn)什么問題,要不他們也不敢這樣操作,只不過當小概率事件真的發(fā)生以后,原本的保護措施也沒了。”
磁盤靜默錯誤究竟是什么?據(jù) 21 世紀經(jīng)濟報道記者了解,通常大家遇到一些磁盤異常,比如硬件錯誤、固件 BUG 等都會得到報錯,但靜默錯誤的發(fā)生往往沒有任何警告,磁盤顯示一切正常,只有在進行數(shù)據(jù)完整性檢驗時才能發(fā)現(xiàn)。
在此次事件中,原本應該進行數(shù)據(jù)檢驗的步驟卻被運維人員關(guān)閉了,所以,人員違規(guī)操作不是引發(fā)故障的根本原因,但卻是擴大故障影響的重要因素。
損失值 1000 萬還是 13 萬?
此外,外界關(guān)注的另外一個焦點是這個事件的賠償問題。據(jù)了解,在數(shù)據(jù)丟失之后,前沿數(shù)控向騰訊云提交了一份損失預估文件,內(nèi)容包含前沿數(shù)控技術(shù)產(chǎn)品線發(fā)展及相關(guān)情況、丟失的數(shù)據(jù)、給前沿數(shù)控技術(shù)平臺帶來的影響、平臺損失價值評估等。綜合這些,前沿數(shù)控提出的索賠金額為 11016000 元。
騰訊云制定的“賠償+補償”方案,總金額為 136469 元。其中,賠償部分為 3569 元,是騰訊云依據(jù)賠償條款,按照前沿數(shù)控自去年 12 月份開戶至今產(chǎn)生的實際消耗予以的賠償。
二者提出的賠償金額相差之多,也引發(fā)了業(yè)界關(guān)于“數(shù)據(jù)值多少錢”的討論。信息安全專家陸寶華在接受 21 世紀經(jīng)濟報道記者的采訪時指出,對于數(shù)據(jù)價值的判斷,現(xiàn)在業(yè)內(nèi)沒有統(tǒng)一標準,所以也沒有可參考的依據(jù)。但是在做損失評估時,應該由第三方機構(gòu)來做,而不是當事企業(yè)。
一位云計算行業(yè)資深從業(yè)者向記者表示,賠償問題可以依據(jù)服務商與客戶之間的協(xié)議,看是按照數(shù)據(jù)的價值,還是按照數(shù)據(jù)的大小或使用的時長來計費。“但通常因為數(shù)據(jù)的價值難以衡量(不是一般等價物如黃金等可以折算成錢),所以通用的服務費用是按照時長、規(guī)模來計費的,賠償往往也會照此計算。”
其舉例說道,電力公司是按照每度電的價格向家庭收費,不會因為這度電是用來炒股還是開燈而產(chǎn)生不同的收費方式。
所以,按照服務協(xié)議條款,騰訊云的賠償方案并無問題,但涉及到數(shù)據(jù)的價值,似乎又很難用云服務費去衡量。陸寶華認為,或許在這件事之后,能夠促成行業(yè)形成一些約定。
云服務還安全嗎?
從云服務開始出現(xiàn)的時候,不斷提升其安全性就是所有服務商持續(xù)在做的事情,現(xiàn)在云服務的安全性也已經(jīng)達到了一定的高度。但不可否認的是,受限于技術(shù)能力,當前對數(shù)據(jù)存儲而言沒有徹底安全的方式。
一位云計算行業(yè)專家向記者表示,凡是在使用的數(shù)據(jù)都有丟失的風險。首先基礎(chǔ)設施就存在局限性,因為沒有設備能達到 100% 可靠;其次,人為因素風險難以避免,目前絕大部分的數(shù)據(jù)丟失其實都是人為操作造成的,比如說中病毒、誤操作等等。
對此,陸寶華告訴記者,通過技術(shù)手段其實可以規(guī)避掉一些人為風險。比如在此事件中,可以設定在沒有進行數(shù)據(jù)校驗的情況下,不允許數(shù)據(jù)搬遷。
但上述行業(yè)專家坦言,數(shù)據(jù)丟失的風險必須主動考慮,數(shù)據(jù)丟失的可能性永遠存在,數(shù)據(jù)容災能力是必須具備的。
多位云計算行業(yè)從業(yè)者向記者表示,很多企業(yè)對于云服務存在一定誤解,認為將數(shù)據(jù)放到云平臺上就萬無一失了。從云計算的本質(zhì)來看,它為企業(yè)提供的是一個低成本的計算資源共享池,它能幫助企業(yè)提升效率,減少成本,但這不代表它是一個不會出問題的服務。
目前,云服務商在提供服務時都會明確知會客戶,因為當前人類技術(shù)水平的限制,服務商能夠提供的服務的可用性、可靠性都做不到 100%,大致能做到幾個9(如 99.9999%)。
該行業(yè)專家表示,為了在此基礎(chǔ)上繼續(xù)提高數(shù)據(jù)的安全性,一般的解決方案是,同時使用該服務商不同區(qū)域的服務器,這樣出問題的概率就會更低。此外,對于重要數(shù)據(jù),不管是個人用戶還是企業(yè)用戶,都需要定期做好備份。如果使用云服務,快照、災備、離線備份等多種方式都可實現(xiàn)數(shù)據(jù)備份。
但需要明確的是,云服務商對于風險的技術(shù)解決能力、容災能力都要遠遠高于企業(yè)個體,在云服務商這邊可能出現(xiàn)的問題,企業(yè)即便在自己的機房也同樣可能會出現(xiàn),而且維護及處理成本會更高。