揭秘大數(shù)據(jù)安全
舊聞:2018年8月28日,網(wǎng)傳華住旗下多個(gè)連鎖酒店開(kāi)房信息數(shù)據(jù)遭泄露售賣(mài)。泄露的數(shù)據(jù)包含漢庭、美爵、禧玥、漫心、諾富特、美居、CitiGo、桔子等酒店用戶(hù)詳細(xì)信息。涉及53G華住官網(wǎng)注冊(cè)資料,大約1.23億條記錄;22.3G酒店入住登記資料,約1.3億人身份證信息;66.2G酒店開(kāi)房記錄,約2.4億條。隨后華住集團(tuán)發(fā)布申明已開(kāi)始核實(shí)事件真實(shí)性,并已報(bào)警處理。
數(shù)據(jù)之于大數(shù)據(jù)項(xiàng)目就猶如泉水之于錦鯉,其重要性不言而喻,必然是企業(yè)極力保護(hù)的核心資產(chǎn)之一。那大數(shù)據(jù)安全又是什么呢?是確保數(shù)據(jù)在收集、傳輸、處理和存儲(chǔ)時(shí)的安全?那這個(gè)常見(jiàn)的數(shù)據(jù)安全又有何異同?是說(shuō)通過(guò)大數(shù)據(jù)分析來(lái)提高企業(yè)安全?但這更像是大數(shù)據(jù)在安全領(lǐng)域的運(yùn)用。
沒(méi)關(guān)系,我們先不急著下定義,讓我們先從幾個(gè)不同的方面來(lái)感受下大數(shù)據(jù)安全的輪廓。
一、大數(shù)據(jù)語(yǔ)境下都有哪些安全問(wèn)題?
1. 新工具帶來(lái)新的安全風(fēng)險(xiǎn)
大數(shù)據(jù)用到多種新工具,這些新工具在誕生之初并沒(méi)有把安全作為第一要素進(jìn)行考慮,因此是存在安全隱患的,而工具在被大規(guī)模運(yùn)用后這些安全隱患會(huì)逐步凸顯出來(lái)。以MangoDB為例,它假設(shè)自己運(yùn)行在企業(yè)內(nèi)網(wǎng)環(huán)境中,且假設(shè)內(nèi)網(wǎng)環(huán)境是安全可靠的,因此MangoDB默認(rèn)情況下無(wú)需身份驗(yàn)證即可登錄。有類(lèi)似問(wèn)題的還有Redis的早期版本。可想而知,如果這樣毫不設(shè)防的數(shù)據(jù)庫(kù)如果出現(xiàn)在了互聯(lián)網(wǎng)上,勢(shì)必會(huì)造成嚴(yán)重的安全問(wèn)題。
在2016年底之后,出現(xiàn)了一波針對(duì)MangoDB的勒索攻擊浪潮,黑客們發(fā)現(xiàn)互聯(lián)網(wǎng)上有大量無(wú)需身份驗(yàn)證即可登錄的MangoDB實(shí)例,其中一些數(shù)據(jù)庫(kù)中還保存著大量高價(jià)值數(shù)據(jù)。于是黑客們把數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行了加密,并要求受害者支付贖金才能換回?cái)?shù)據(jù)。美國(guó)某個(gè)醫(yī)療機(jī)構(gòu)就是這么中招的,其存放了大量患者個(gè)人及醫(yī)療數(shù)據(jù)的MangoDB被黑客攻擊,醫(yī)院最終被迫無(wú)奈向黑客支付了贖金才換回了數(shù)據(jù)庫(kù)的控制權(quán),但誰(shuí)知道在此期間攻擊者有沒(méi)有利用MangoDB的漏洞,以MangoDB為跳板進(jìn)而已經(jīng)入侵了企業(yè)內(nèi)部網(wǎng)絡(luò)呢?誰(shuí)知道攻擊者有沒(méi)有把數(shù)據(jù)拖庫(kù),進(jìn)而轉(zhuǎn)賣(mài)給了第三方呢?
2. 數(shù)據(jù)污染
大數(shù)據(jù)系統(tǒng)收集的數(shù)據(jù)來(lái)自數(shù)量眾多且類(lèi)型各異的來(lái)源,并且對(duì)這些數(shù)據(jù)進(jìn)行分析處理后生成更具價(jià)值的數(shù)據(jù),或者基于對(duì)數(shù)據(jù)的分析處理來(lái)觸發(fā)后續(xù)業(yè)務(wù)邏輯。這一點(diǎn)在運(yùn)用了大數(shù)據(jù)的物聯(lián)網(wǎng)系統(tǒng)中更為常見(jiàn)。由于物聯(lián)網(wǎng)系統(tǒng)中部署了數(shù)量龐大的終端設(shè)備,各種各樣的傳感器、控制器都在產(chǎn)生數(shù)據(jù)并回傳給數(shù)據(jù)平臺(tái)做處理。
大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)流動(dòng)路徑就像是樹(shù)根,每個(gè)根節(jié)點(diǎn)產(chǎn)生的數(shù)據(jù)都會(huì)對(duì)整棵樹(shù)的生長(zhǎng)產(chǎn)生影響。攻擊者自然也明白這一點(diǎn),破壞這些根節(jié)點(diǎn)就能破壞整個(gè)大數(shù)據(jù)系統(tǒng)的正常運(yùn)行。例如,如果是大量破壞根節(jié)點(diǎn)使其不能生產(chǎn)數(shù)據(jù),大數(shù)據(jù)系統(tǒng)將面臨“巧婦難為無(wú)米之炊”的困境;如果是暗中替換或者篡改了某些根節(jié)點(diǎn)生產(chǎn)的數(shù)據(jù),大數(shù)據(jù)系統(tǒng)的行為可能被攻擊者操控;如果攻擊者能夠偽造根節(jié)點(diǎn)向大數(shù)據(jù)系統(tǒng)傳遞錯(cuò)誤的,或者別有用心構(gòu)造過(guò)的數(shù)據(jù),那么大數(shù)據(jù)系統(tǒng)最終產(chǎn)出的數(shù)據(jù)價(jià)值可能大打折扣。
試想一下,某個(gè)養(yǎng)老院中實(shí)施監(jiān)控老年人脈搏、心跳、血壓等等數(shù)據(jù),并基于對(duì)這些數(shù)據(jù)的分析處理而觸發(fā)相應(yīng)的警報(bào)、自動(dòng)呼叫醫(yī)護(hù)人員的系統(tǒng),如果攻擊者偽造數(shù)據(jù)制造出假警報(bào),必將造成急救資源的浪費(fèi)。而如果攻擊者能夠篡改心跳數(shù)據(jù),當(dāng)受害者心臟病突然發(fā)作時(shí),系統(tǒng)可能無(wú)法監(jiān)控到異常從而無(wú)法做出回應(yīng),受害者的人身安全必然受到嚴(yán)重威脅。
3. 個(gè)人隱私面臨更多的風(fēng)險(xiǎn)
匿名化處理后的數(shù)據(jù),在配合上其他維度的數(shù)據(jù)后,依然可以識(shí)別出用戶(hù)身份。例如就算把數(shù)據(jù)記錄中的姓名、身份證號(hào)等能夠直接識(shí)別出某個(gè)個(gè)體的信息隱去,但如果有其他維度的帶有個(gè)體標(biāo)識(shí)信息的數(shù)據(jù)集合做參考,那么依然能識(shí)別出這些匿名化的數(shù)據(jù)記錄多對(duì)應(yīng)的個(gè)體。
現(xiàn)實(shí)中的例子有很多,比如Netflix對(duì)數(shù)據(jù)做了匿名化處理,但這些數(shù)據(jù)中的用戶(hù)依然可以被識(shí)別出來(lái),因?yàn)槠渲幸恍┯脩?hù)同時(shí)在Netflix和IMDB上給相同的電影做了評(píng)分,故而只需把這些數(shù)據(jù)關(guān)聯(lián)起來(lái)就能達(dá)到識(shí)別用戶(hù)的目的。
4. 存儲(chǔ)大數(shù)據(jù)處理后的高價(jià)值數(shù)據(jù)的應(yīng)用系統(tǒng),其本身就是被攻擊的目標(biāo)
大數(shù)據(jù)所收集的原始數(shù)據(jù)往往單位價(jià)值密度低,但經(jīng)過(guò)大數(shù)據(jù)處理后能夠提取出這些數(shù)據(jù)中高價(jià)值的部分。這些經(jīng)過(guò)處理后的數(shù)據(jù)除了可用于觸發(fā)后續(xù)業(yè)務(wù)邏輯,也是輔助企業(yè)進(jìn)行業(yè)務(wù)決策的重要輸入。與此同時(shí)也是攻擊者們天然感興趣,千方百計(jì)想要獲取到的數(shù)據(jù)。
從攻擊者的角度來(lái)看,這些存儲(chǔ)著高價(jià)值數(shù)據(jù)的系統(tǒng)其本質(zhì)上不外乎也是個(gè)應(yīng)用程序,如果能攻破這些應(yīng)用程序進(jìn)而拿到數(shù)據(jù),相比于攻擊者自己收集原始數(shù)據(jù)再處理而言要?jiǎng)澦愕枚唷?/p>
再加上大多數(shù)企業(yè)在防御攻擊這件事上面主要依靠的是基于網(wǎng)絡(luò)隔離的防御方式,意味著應(yīng)用程序本身的安全質(zhì)量極可能是靠不住的,一旦攻擊者侵入企業(yè)內(nèi)網(wǎng),這些存儲(chǔ)著高價(jià)值數(shù)據(jù)的應(yīng)用程序勢(shì)必會(huì)變成任攻擊者宰割的“羔羊”。
5. 防火防盜防內(nèi)鬼
“防火防盜防內(nèi)鬼”可不是隨便說(shuō)說(shuō)的段子。無(wú)論是大數(shù)據(jù)系統(tǒng)中的巨量原始數(shù)據(jù),還是經(jīng)過(guò)處理后的高價(jià)值數(shù)據(jù),它們不僅是外部攻擊者眼中的肥肉,也可能被內(nèi)鬼盯上。
永遠(yuǎn)不要低估了企業(yè)內(nèi)部威脅,見(jiàn)諸報(bào)端的企業(yè)內(nèi)鬼作案不在少數(shù),就在1個(gè)多月前,特斯拉指控一名前員工泄露了特斯拉機(jī)密數(shù)據(jù),聲稱(chēng)該員工定期將特斯拉的數(shù)據(jù)輸出給公司以外的人。明星獨(dú)角獸企業(yè)出的事情更容易被傳播報(bào)道出去,相信還有更多不為人知的案例已經(jīng)或者正在發(fā)生,只不過(guò)不為公眾所知而言。
二、什么是大數(shù)據(jù)安全?
通過(guò)以上幾個(gè)維度來(lái)看,大數(shù)據(jù)安全顯然不是指SIEM(Security Information & Events Management)這類(lèi)系統(tǒng)。盡管SIEM描述的景象讓人非常期待,企業(yè)可以利用大數(shù)據(jù)處理和分析來(lái)自各個(gè)IT基礎(chǔ)設(shè)施、網(wǎng)絡(luò)設(shè)備、業(yè)務(wù)系統(tǒng)中的數(shù)據(jù),從而實(shí)時(shí)感知企業(yè)當(dāng)前的安全態(tài)勢(shì),使得企業(yè)迅速的有針對(duì)性的采取處理措施消滅安全隱患于萌芽階段成為可能,但這是大數(shù)據(jù)系統(tǒng)在安全領(lǐng)域中的運(yùn)用,是“安全大數(shù)據(jù)”而不是“大數(shù)據(jù)安全”。
那它和傳統(tǒng)的數(shù)據(jù)安全又有何不同?莫非是因?yàn)閿?shù)據(jù)量大到一定規(guī)模了之后,量變產(chǎn)生了質(zhì)變,因此變成了另一個(gè)東西?這個(gè)問(wèn)題的答案既可以是肯定的也可以是否定的。
說(shuō)它是肯定的,原因在于大數(shù)據(jù)系統(tǒng)要處理的數(shù)據(jù)體量龐大,大到傳統(tǒng)數(shù)據(jù)處理方式、處理系統(tǒng)無(wú)能為力,只能用新的技術(shù)架構(gòu)、新的工具才能完成這一任務(wù),而對(duì)應(yīng)的安全風(fēng)險(xiǎn)和防御舉措也都發(fā)生了變化,因此確實(shí)和和傳統(tǒng)數(shù)據(jù)安全有些不一樣。
但也可以說(shuō)是否定的,原因在于大數(shù)據(jù)系統(tǒng)本質(zhì)上也是IT信息系統(tǒng),傳統(tǒng)數(shù)據(jù)安全的那些實(shí)踐(例如數(shù)據(jù)加密、鑒權(quán))在大數(shù)據(jù)環(huán)境下依然適用。
那當(dāng)我們說(shuō)“大數(shù)據(jù)安全”的時(shí)候,我們到底在講什么?我想,至少我們?cè)谡f(shuō)大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)的安全。
數(shù)據(jù)是值錢(qián)的,這顯而易見(jiàn)。進(jìn)入到大數(shù)據(jù)時(shí)代后尤其如此。大數(shù)據(jù)安全必然最關(guān)心的也就是數(shù)據(jù)在整個(gè)系統(tǒng)中,從誕生到收集、清洗、存儲(chǔ)、分析、消費(fèi)、存檔以及銷(xiāo)毀這個(gè)生命周期中,其機(jī)密性、完整性和可用性不被破壞。
大數(shù)據(jù)處理和分析系統(tǒng)(也有人稱(chēng)之為大數(shù)據(jù)平臺(tái),下文統(tǒng)稱(chēng)“大數(shù)據(jù)系統(tǒng)”)中最重要的當(dāng)然是數(shù)據(jù),但與此同時(shí),和數(shù)據(jù)共生的還有組成大數(shù)據(jù)系統(tǒng)的各個(gè)應(yīng)用。數(shù)據(jù)在應(yīng)用里誕生、流轉(zhuǎn)、被消費(fèi),這些應(yīng)用自身的安全性如何,在很大程度上將直接影響數(shù)據(jù)的安全性。因此,大數(shù)據(jù)安全也應(yīng)該包含這些應(yīng)用的安全。
光有數(shù)據(jù)和應(yīng)用的大數(shù)據(jù)系統(tǒng)并不能真正發(fā)揮它的價(jià)值,直到大數(shù)據(jù)系統(tǒng)將分析處理后的高價(jià)值數(shù)據(jù)反饋給人的時(shí)候,在輔助企業(yè)做出業(yè)務(wù)甚至戰(zhàn)略決策的時(shí)候,它的價(jià)值才被最大化。這也就意味著,人也是大數(shù)據(jù)系統(tǒng)中的重要參與者,一個(gè)有價(jià)值的大數(shù)據(jù)系統(tǒng)不應(yīng)該只是一堆冷冰冰的機(jī)器上運(yùn)行的成千上萬(wàn)個(gè)實(shí)例,處理著幾個(gè)T的實(shí)時(shí)數(shù)據(jù),然而卻沒(méi)有任何人使用的復(fù)雜分布式系統(tǒng)。
與此同時(shí),人是容易犯錯(cuò)的,這是人的特性(好吧,你要說(shuō)它是人的Bug也行)。既然人參與了大數(shù)據(jù)系統(tǒng),那么確保人在這個(gè)復(fù)雜的系統(tǒng)中盡可能不犯錯(cuò)、少犯錯(cuò)就顯得很有必要了。
至此我們分析得出了一個(gè)極簡(jiǎn)的關(guān)于大數(shù)據(jù)安全的模型,看上去這個(gè)模型似乎也太過(guò)于簡(jiǎn)單了,但有時(shí)候事情往往就是如此簡(jiǎn)單,并沒(méi)有什么神秘的地方。
三、我們可以做些什么?有哪些實(shí)踐?
雖然沒(méi)有名單妙藥能夠既簡(jiǎn)單又高效的一鍵解決大數(shù)據(jù)安全所面對(duì)的各種挑戰(zhàn),不過(guò)大數(shù)據(jù)安全倒是可以從傳統(tǒng)數(shù)據(jù)安全、企業(yè)安全等等傳統(tǒng)安全實(shí)踐中借鑒經(jīng)驗(yàn)。
那我們到底應(yīng)該做些什么呢?總的來(lái)說(shuō)我們還是需要從上文中梳理出來(lái)的基建大數(shù)據(jù)安全模型入手,分門(mén)別類(lèi)的開(kāi)展一系列安全活動(dòng)。
1. 確保數(shù)據(jù)安全
不管是“大數(shù)據(jù)”還是“小數(shù)據(jù)”,數(shù)據(jù)對(duì)企業(yè)而言始終是最有價(jià)值的資產(chǎn)。為確保大數(shù)據(jù)安全系統(tǒng)中的數(shù)據(jù)安全,傳統(tǒng)數(shù)據(jù)安全領(lǐng)域里的安全實(shí)踐完全可以復(fù)用。
一些典型的安全實(shí)踐有:文件系統(tǒng)加密,從而避免數(shù)據(jù)泄露后攻擊者能夠直接拿到明文數(shù)據(jù);面向業(yè)務(wù)透明的敏感字段加密;用戶(hù)隱私數(shù)據(jù)脫敏后存儲(chǔ);數(shù)據(jù)異地備份;數(shù)據(jù)完整性校驗(yàn)等。
2. 加強(qiáng)系統(tǒng)安全
抽象來(lái)看,大數(shù)據(jù)系統(tǒng)不外乎也是IT系統(tǒng),它依賴(lài)虛擬機(jī)或物理服務(wù)器、網(wǎng)絡(luò)設(shè)備和各種軟件應(yīng)用,因此傳統(tǒng)企業(yè)安全中關(guān)于主機(jī)、網(wǎng)絡(luò)、應(yīng)用相關(guān)的實(shí)踐在大數(shù)據(jù)安全上下文里依然適用。
一些典型的安全實(shí)踐有:IT基礎(chǔ)設(shè)施物理安全控制、操作系統(tǒng)安全加固、應(yīng)用補(bǔ)丁管理、主機(jī)入侵檢測(cè)、網(wǎng)絡(luò)入侵檢測(cè)等等。每個(gè)企業(yè)的大數(shù)據(jù)系統(tǒng)架構(gòu)各不一樣,企業(yè)必然需要根據(jù)自己的實(shí)際情況從傳統(tǒng)企業(yè)安全實(shí)踐中挑選最適合自己的來(lái)使用。
3. 減少人因失誤
有調(diào)查稱(chēng)至少半數(shù)以上的安全問(wèn)題源自于人為失誤,因?yàn)槿丝偸且追稿e(cuò)的。先拋開(kāi)這個(gè)調(diào)查中的數(shù)字是否準(zhǔn)確的討論,至少這是一個(gè)大家都能在自己周?chē)惺艿降钠毡楝F(xiàn)象。
除了因?yàn)閱T工粗心大意造成安全問(wèn)題之外,“內(nèi)鬼作案”也是需要企業(yè)警惕的一大安全風(fēng)險(xiǎn)。
在這方面,企業(yè)需要做好特權(quán)賬號(hào)管理、用戶(hù)身份認(rèn)證、基于角色的權(quán)限控制、資源從屬關(guān)系校驗(yàn)、日志審計(jì)、員工安全意識(shí)建設(shè)等安全實(shí)踐。
4. 抗拒數(shù)據(jù)誘惑:不該收集的數(shù)據(jù)別去碰
基于對(duì)大數(shù)據(jù)的分析可以產(chǎn)生出一些洞見(jiàn),某些洞見(jiàn)可能具備巨大的商業(yè)價(jià)值。因此簡(jiǎn)單來(lái)講,多收集數(shù)據(jù)有助于多產(chǎn)生洞見(jiàn),或者產(chǎn)生更精準(zhǔn)的洞見(jiàn),從而產(chǎn)生更大規(guī)模的經(jīng)濟(jì)效應(yīng)。
另一方面,手握數(shù)據(jù)可以給企業(yè)帶來(lái)一種虛假的安全感:雖然我現(xiàn)在不知道這些數(shù)據(jù)該怎么使用,但未來(lái)可能會(huì),所以還是先收集起來(lái)吧,畢竟數(shù)據(jù)在手天下我有。
正因如此,許多企業(yè)(尤其是國(guó)內(nèi)企業(yè))爭(zhēng)先恐后、肆無(wú)忌憚的收集用戶(hù)個(gè)人信息。
然而這種做法是把雙刃劍,擁有數(shù)據(jù)確實(shí)是一種優(yōu)勢(shì),但如果這些數(shù)據(jù)涉及用戶(hù)個(gè)人隱私,持有這些數(shù)據(jù)的風(fēng)險(xiǎn)就會(huì)升高。數(shù)據(jù)越是敏感,被攻擊者“盯上”的可能性就越高,數(shù)據(jù)遭到泄露的概率也在上升。
因此,從風(fēng)險(xiǎn)控制的角度講,企業(yè)收集一些當(dāng)前階段暫且使用不上的涉及個(gè)人隱私的數(shù)據(jù)無(wú)疑是在給自己挖坑。更為值得采取的做法是,僅僅只是收集能夠滿(mǎn)足業(yè)務(wù)開(kāi)展而所需的數(shù)據(jù)即可。因?yàn)椴怀钟忻舾袛?shù)據(jù),也就沒(méi)有數(shù)據(jù)泄露風(fēng)險(xiǎn)。
【本文為51CTO專(zhuān)欄作者“張逸”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者】