微盟刪庫事故啟示錄
近期熱議的微盟系統(tǒng)故障事件,想必大部分人都已經有所關注。截止2月26日中午,微盟官網仍然掛著公告,表示數(shù)據還在修復過程中。
從2月23日晚間SaaS業(yè)務生產環(huán)境和數(shù)據遭到嚴重破壞,直到25日核心業(yè)務基本恢復,基本不影響新用戶使用,但由于部分數(shù)據還在修復過程中,官方仍然建議老用戶重新注冊賬戶使用,后續(xù)再進行新老賬戶數(shù)據合并,預計到28日晚間才能完全修復。
刪庫跑路,近幾年偶有發(fā)生,甚至經常成為技術圈中調侃的話題。而作為國內最大的微信生態(tài)服務商,微盟在香港上市已近七年,員工規(guī)模也超過3000人。系統(tǒng)故障造成的嚴重影響超過36個小時,數(shù)萬商家業(yè)務無法進行,股價暴跌,很難想象這是一家上市公司所經歷的窘境。
如果從23日19點開始計算,到官方宣稱的預計28日才能完全修復,此次故障造成的影響竟持續(xù)數(shù)日之久?!竸h庫跑路」造成如此深遠影響的,屬實不多見的。
微盟官方對于事件發(fā)生經過,并沒有太多細節(jié):
犯罪嫌疑人乃微盟研發(fā)中心運維部核心運維人員賀某,賀某于 2 月 23 日晚 18 點 56 分通過個人 VPN 登入公司內網跳板機,因個人精神、生活等原因對微盟線上生產環(huán)境進行了惡意的破壞。 |
察覺到事故發(fā)生后,微盟第一時間和騰訊云聯(lián)系,共同制定修復方案,即便如此也耗時幾天的時間。在后續(xù)的回應中,微盟集團對外表示,商戶數(shù)據備份完整,系統(tǒng)服務恢復后商戶的使用將不受影響。
通過已知的各個信息點對此次事故進行簡單復盤,斗象科技技術負責人徐鐘豪認為,微盟企業(yè)內部應該已經構建了一定的安全能力:
- VPN:提供遠程網絡接入,提供基礎的身份認證和網絡訪問授權。
- 跳板機:SaaS服務器只允許來自跳板機的訪問,提供了基礎的網絡和數(shù)據庫網絡準入控制。
- 數(shù)據庫主備:具備故障遷移時的可用性,以及數(shù)據恢復能力。
- 生成環(huán)境對運維權限放的較寬,對研發(fā)權限一般是收緊的。相信很多互聯(lián)網企業(yè)也是處于類似的狀態(tài)。
目前來看,在本次事故中應該是主備數(shù)據均被刪除。萬幸是進行了「Delete」操作,而沒有進行「Purge」、「覆寫」、「加密毀密鑰」等操作,這種情況下還能從副本或者磁盤恢復,只是恢復效率慢時間長,因此就存在微盟所說的“商戶數(shù)據備份完整”但完全恢復還需要較長時間的情況。
業(yè)務風險管理措施建議
事到如今,犯罪嫌疑人賀某已經被刑事拘留,微盟的核心業(yè)務已恢復,剩余部分數(shù)據也已經在逐步恢復?!肝⒚耸录勾淼目赡苁潜姸嘀行』ヂ?lián)網企業(yè)安全建設情況的縮影,也給所有的企業(yè)敲響了警鐘,內部人員作案仍然是讓所有企業(yè)安防范的重點以及難點。斗象科技技術負責人徐鐘豪總結這次事故中所暴露出來的問題,從業(yè)務風險管理的角度給出了一些針對性的建議:
1. 數(shù)據庫權限管理
- 最小化權限原則
- 分庫分表
2. 數(shù)據庫主從及備份
(1)主從:當出現(xiàn)故障時能夠進行故障遷移,滿足高可用
(2) 備份:
- 實時備份:在線備份數(shù)據庫進行讀寫分離,用于數(shù)據恢復
- 離線備份:日常異地離線備份,用于數(shù)據災難恢復
3. 備份數(shù)據權限控制
- 設置備份數(shù)據的操作權限策略,限制高危敏感操作,如drop、rm等
- 設置備份數(shù)據的訪問控制策略,否則易導致另一種的數(shù)據泄露問題
4. 指令控制和審計
- 操作系統(tǒng)的敏感/關鍵指令的限制和監(jiān)控,并對操作指令歷史進行采集和遠程存儲分析
- 數(shù)據庫審計,對數(shù)據庫流量或日志審計,設定告警通知機制
5.管理流程優(yōu)化改進
- 線上變更的流程審批,申請變更時段和操作細節(jié),效率會慢一點,但提升了安全性
- 系統(tǒng)性的風險評估,識別與量化風險,進行風險處置,降低風險
- BCP(業(yè)務連續(xù)性計劃)和DRP(災難恢復計劃)的制定、評估和周期性演練。達到一定規(guī)模體量的企業(yè),是有必要認真考慮這兩個計劃。
安全娛樂圈,也提供了很多idea,如刪庫跑路不留痕跡,也不乏調侃之人,建議從黑市上買一份被脫庫的數(shù)據來進行數(shù)據恢復等。在這次疫情期間,對企業(yè)帶來了極大的挑戰(zhàn),需要上下齊心協(xié)力克服困難。另外企業(yè)不能僅關注業(yè)務,合理的文化建設和員工關懷也是必要的。