網(wǎng)絡安全攻防:大數(shù)據(jù)安全問題
由于大數(shù)據(jù)分布式平臺的特殊性,防火墻、病毒防治等傳統(tǒng)安全機制無法保障大數(shù)據(jù)服務的安全,大數(shù)據(jù)在應用過程中往往存在如下一些安全問題。
(1)分布式計算的安全性。執(zhí)行多個計算階段分布式程序必須獲得雙重安全保護,一個用于程序自身的安全保護,一個保護程序中的數(shù)據(jù)。
(2)分布式數(shù)據(jù)的安全性。NoSQL非關(guān)系型數(shù)據(jù)庫系統(tǒng)自身存儲的安全問題,以及分布式節(jié)點數(shù)據(jù)自動分發(fā)與聚集等管理所需的額外安全機制。
(3)數(shù)據(jù)來源的安全性。數(shù)據(jù)源的出處復雜性在不斷增長,當一個系統(tǒng)接收到海量多源異構(gòu)數(shù)據(jù)時,大數(shù)據(jù)采集平臺必須解決每一個輸入數(shù)據(jù)的安全可信問題。
(4)安全監(jiān)控與審計問題。存儲海量數(shù)據(jù)的互聯(lián)網(wǎng)大數(shù)據(jù)云平臺和關(guān)鍵基礎信息系統(tǒng),已成為網(wǎng)絡攻擊的重要目標,同時數(shù)據(jù)的歸屬權(quán)問題也日益凸顯,需要研究實時保障大數(shù)據(jù)安全使用的監(jiān)控與審計系統(tǒng)。
(5)加密與訪問控制問題。大數(shù)據(jù)安全須解決終端和云端兩種加密模式及其應用;同時,由于黑客攻擊、內(nèi)部人員非授權(quán)訪問等導致的信息泄露事件時有發(fā)生,大數(shù)據(jù)的訪問控制模型也面臨挑戰(zhàn)。
(6)大數(shù)據(jù)安全隱私問題。大數(shù)據(jù)時代的來臨,涉及安全和個人隱私的問題紛至沓來,這將使人們的生活安全以及隱私保護受到極大困擾,必須從技術(shù)、法規(guī)等多個角度加以解決。
人們普遍認為,最令人焦慮的在于您根本不知道什么時候自己的隱私就無意中被泄露出去。在大數(shù)據(jù)時代,隱私泄露已成為人們最大的擔憂。大數(shù)據(jù)可將互聯(lián)網(wǎng)中的數(shù)據(jù)轉(zhuǎn)換成有價值的資源,但當大數(shù)據(jù)使人們的生活變得愈加方便快捷的同時,隱私泄露問題也隨之爆發(fā)。
隨著大數(shù)據(jù)的搜集和分析技術(shù)的發(fā)展,數(shù)據(jù)泄露的風險也在不斷加大,人們應該正視和規(guī)避這樣的風險。
1. 肆意收集帶來的隱私問題
在大數(shù)據(jù)環(huán)境中,可以通過醫(yī)療就醫(yī)記錄、購物及服務記錄、網(wǎng)站搜索記錄、手機通話記錄、手機位置軌跡記錄等來獲取用戶的信息。收集這些用戶個人信息時,通常是未經(jīng)用戶同意,或者用戶很少有機會去思考、去認同自己的數(shù)據(jù)的用途;是誰收集了自己的數(shù)據(jù);是誰二次使用了自己的數(shù)據(jù);如果自己的數(shù)據(jù)出現(xiàn)誤用,將由誰負責;自己的數(shù)據(jù)是否在網(wǎng)上被惡意傳播;自己的數(shù)據(jù)什么時候被銷毀等。
因此,針對大數(shù)據(jù)平臺,數(shù)據(jù)采集首先應該脫敏處理。任何公民的個人信息都是“隱私”的一部分,在沒有得到個人許可或司法許可的前提下,若數(shù)據(jù)以原始狀態(tài)被采集,就必須理清超越邊界的范疇。而對原始數(shù)據(jù)進行脫敏處理,包括屏蔽完整的姓名、證件號碼、聯(lián)系方式、地址等關(guān)鍵信息。數(shù)據(jù)脫敏后用于統(tǒng)計分析和處理,是大數(shù)據(jù)安全分析的基礎。
2. 集成融合帶來的隱私問題
集成和融合通常采用鏈接操作使多個異構(gòu)數(shù)據(jù)源匯聚在一起,并且識別出相應的實體。小數(shù)據(jù)源通常能夠反映出用戶的某個活動,比如接受的醫(yī)療、購買的商品、搜索的網(wǎng)站、手機留下的位置特征、與社交網(wǎng)絡互動信息、政治活動等。融合不同的小數(shù)據(jù)可以更好地服務于數(shù)據(jù)分析與管理。零售商通過集成線上、線下以及銷售目錄數(shù)據(jù)庫,可以獲得更多消費者的個人描述信息、預測消費者的購物偏好等;GPS服務商通過集成路網(wǎng)不同路段上的傳感器數(shù)據(jù),可以得到更好的道路規(guī)劃與交通路線。然而,多個數(shù)據(jù)源的集成與融合幾乎能夠推理出個人所有的敏感信息,無形中給個人隱私的保護帶來嚴峻挑戰(zhàn)。
因此,大數(shù)據(jù)集成融合應該在用戶知情授權(quán)的前提下進行。啤酒與尿片這樣的經(jīng)典關(guān)聯(lián)分析案例,現(xiàn)在看來也是一種大數(shù)據(jù)應用場景,而且并不針對任何個人的推銷。但當我們針對消費者個人消費習慣進行大數(shù)據(jù)分析,并得到針對性很強的個性化營銷策略的時候,其實消費者的隱私已在并不知情和未經(jīng)授權(quán)的情況下被利用了,所以要針對個性化數(shù)據(jù)集成融合就需要以用戶知情為前提。
3. 數(shù)據(jù)分析帶來的風險
目前,基于大數(shù)據(jù)的計算框架,其計算分析能力幾乎已經(jīng)能夠達到“大海撈針”。數(shù)據(jù)科學家通過分析,可以挖掘出大數(shù)據(jù)中的異常點、頻繁模式、分類模式、數(shù)據(jù)之間的相關(guān)性以及用戶行為規(guī)律等信息。然而,大數(shù)據(jù)分析的最大障礙是數(shù)據(jù)隱私問題。在某種程度上,隱私不可怕,可怕的是用戶的行為可以通過大數(shù)據(jù)分析被預測。大數(shù)據(jù)下的個性化推薦系統(tǒng)是電子商務網(wǎng)站根據(jù)用戶的興趣特點和購買行為,向用戶推薦感興趣的信息和商品。然而,用戶的商品購買信息以及行為模式很有可能被商務網(wǎng)站挖掘出來,進而導致隱私信息泄露。
因此,數(shù)據(jù)分析應該針對群體對象,而非個體。大數(shù)據(jù)分析可以發(fā)現(xiàn)同性和趨勢、關(guān)聯(lián)與耦合。通過大量的脫敏數(shù)據(jù)的整合分析,可以發(fā)現(xiàn)一個社會群體的某些特質(zhì);通過一些共同的行為軌跡,可以發(fā)現(xiàn)事物之間的關(guān)聯(lián)。如購物網(wǎng)站經(jīng)常發(fā)布的網(wǎng)上購買最多的商品是什么、視頻網(wǎng)站經(jīng)常發(fā)布的熱門劇是什么、春運時搜索網(wǎng)站經(jīng)常發(fā)布人口遷移的熱力指數(shù)及人口遷移方向和趨勢等,這樣的大數(shù)據(jù)分析都不針對具體個體,也不揭露任何個人信息。