大數據全生命周期安全與隱私之一
近年來,大數據受到了工業(yè)界、科技界、媒體以及政府部門的高度關注,大數據本質上是一種基于數據處理的技術,通過大量數據分析提取有價值的信息,預測未來的變化,它被認為是推動商業(yè)和技術創(chuàng)新以及經濟增長的新能源。大數據在各個領域有很多優(yōu)勢和潛力,但也存在很多問題和挑戰(zhàn),如隱私保護、倫理問題、數據安全管理方法、個人信息保護和數據濫用等[1],特別是包括隱私信息的大量共享數據在互聯開放環(huán)境中被售賣和利用給人們帶來了巨大的損失,大數據安全防護工作迫在眉睫。
本文將分為上下篇,為讀者解讀大數據全生命周期各階段面臨的風險和各種安全防護技術。上篇主要介紹當前國際標準化組織制定的安全標準和大數據生命周期五個階段(收集、存儲、使用、利用和銷毀)面臨的風險,下篇主要介紹數據全生命周期各階段風險應對安全技術。
1 . 背景介紹
1.1 大數據平臺
大數據是新一代的技術,具有數據量大、產生速度快和數據種類繁多等多方面特點,這些數據以結構化和半結構化的多種形態(tài)呈現,當前分析和處理用戶產生的海量數據已經成為政府和企業(yè)的主要任務。大數據各種組件也相繼出現,如大數據框架Hadoop、CDH、HDP;集群管控Ambari、數據采集Flume;數據存儲HBase;數據處理Flink、Spark和Storm;數據挖掘Mahout和Spark MLib等,圖1列出了大數據技術生態(tài)體系圖,這些組件相互組合使用來支持大規(guī)模數據的收集、分析和存儲等任務。
圖1 大數據技術生態(tài)體系
1.2 大數據安全
大數據由于價值密度較高,經常成為黑客攻擊的目標,普遍存在巨大的安全需求。例如全球互聯網巨頭雅虎曾被黑客攻破用戶賬戶保護算法,導致數億的用戶賬號被盜、管理咨詢公司埃森哲等研究機構2016年發(fā)布的一項研究調查結果顯示,調查的208家企業(yè)當中,69%的企業(yè)曾在過去一年內“遭到公司內部人員竊取數據或試圖盜取”。傳統(tǒng)的數據安全需求主要包括數據的機密性、完整性和可用性等,其目的主要防止數據在傳輸、存儲和使用等環(huán)節(jié)被泄漏和篡改。而在大數據場景下,不僅要滿足傳統(tǒng)的信息安全需求,還必須應對大數據特性所帶來的各項技術挑戰(zhàn),主要有如下三個挑戰(zhàn),挑戰(zhàn)之一是如何滿足可用性的前提下保護大數據的機密性,挑戰(zhàn)之二是如何實現大數據的安全共享,挑戰(zhàn)之三是如何實現大數據的真實驗證和可信溯源。
通常,大數據平臺中有五種類型的角色(數據提供者、數據收集者、存儲管理者、分析師和決策者),圖2是大數據平臺的一個簡單應用場景。
圖2 大數據的簡單應用場景
數據采集器通過物聯網設備、社交網絡服務等多種途徑收集數據。采集的數據可能包含敏感信息,因此必須采取適當的數據隱私處理安全措施。存儲管理者通過云環(huán)境和分布式存儲系統(tǒng)來存儲數據,存儲階段可能包含來自數據提供者的敏感信息,應該使用各種安全技術來安全管理這些信息,防止數據泄漏,另外數據刪除應按照法規(guī)執(zhí)行,以確保數據提供者的權利。數據分析師可以分析存儲庫中的數據,以獲得適當的分析結果,在挖掘和分析過程中可能會出現各種隱私數據挖掘問題,分析師要使用隱私保護技術來平衡數據的可用性和隱私性之間的關系。決策者以可視化等方式利用分析的結果,這些結果很多情況只能給特定用戶展示,需要隱私保護技術防止無意的隱私泄漏。
2 . 數據安全標準
數據安全標準分為法律標準和事實標準。法律標準由現有的標準化組織經過一定程序和審議制定的標準,組織包括ISO、ITU、ISO/IEC 單位JTC1、NIST、SAC和BSI等。事實標準是由特定領域的公司和組織如建立的標準,因其知名度而影響著市場經濟,其地位也在不斷加強,制定了一系列大數據相關的事實標準,組織單位包括TTA、TM論壇、IEEE-SA和Apache等。
2.1 法律標準
國際標準化組織(ISO)是1947年成立的一個國際標準化組織,由各個國家標準組織的代表組成,旨在解決不同國家不同工業(yè)和商業(yè)標準可能產生的問題[2]。目前開發(fā)了很多與大數據安全相關的參考架構和框架,如ISO/IEC 20547 Information technology-Big data- reference architecture和ISO/IEC 24668 Information technology-Artificial intelligence-Process management framework for big data analytics等,但在信息和通信等技術進步迅速的領域,這些標準卻往往無法跟上市場趨勢。
國家標準化委員會成立于2001年,是負責管理、監(jiān)督和協(xié)調我國整體標準化工作,促進國家在國際標準化領域的國家利益的全國性標準化機構,在大數據安全相關標準為《GB/T 35274-2017信息安全技術大數據業(yè)務安全能力要求》和《GB/T 37973-2019信息安全技術大數據安全管理指南》[3]。GB/T 35274-2017規(guī)定,大數據服務提供商應具備與基礎安全能力相關的組織機構和與數據生命周期相關的數據安全能力。該標準根據數據生命周期(即獲取、傳輸、存儲、處理、交換和銷毀)描述安全要求。《GB/T 37973-2019》還對大數據的安全要求和識別威脅、漏洞等安全風險進行了描述。但是對需求的描述只是一個粗略的描述,而詳細的技術說明和必要性是不夠的。
2.2 事實標準
電信技術協(xié)會(TTA)是韓國1988年成立的信息通信領域標準化和標準產品測試的機構,是韓國唯一指定信息通信組織標準的機構,其制定的大數據相關標準takk . ko -10.0900大數據部署和利用指南。
IEEE是在美國成立的電子電氣工程及相關研究的協(xié)會,其IEEE-SA組織正在為各個行業(yè)開發(fā)大數據標準[4],通過“IEEE P7002Data隱私處理程序”、“IEEE P7006個人數據AI代理程序”等項目,正在制定大數據隱私保護標準。IEEE P7002定義了系統(tǒng)/軟件工程過程的要求,涉及產品、服務和利用雇員、客戶或其他外部用戶的個人數據的系統(tǒng)。IEEE P7006描述了創(chuàng)建和授權使用個性化人工智能所需的技術元素,該人工智能將包含由個人控制的輸入、學習、倫理、規(guī)則和價值觀。
Apache是專門為開源軟件項目提供支持的非盈利性組織,其中開源軟件項目“基于大數據分析的分布式處理平臺Hadoop”,通過與多個開源項目組合,生成了一個大數據生態(tài)系統(tǒng),Hadoop分布式文件系統(tǒng)項目提供了認證和授權等安全性[5]。
2.3 現行標準的展望和缺陷
數據的安全和隱私是大數據需要解決的關鍵問題,但許多標準組織仍在發(fā)展或沒有涉及,雖然一些標準化組織正在制定與大數據相關的標準,但標準的制定和發(fā)布需要花費大量的時間,技術的飛速發(fā)展使得已發(fā)布的標準僅將過時的技術列入其中,且沒有對這些技術進行詳細描述。因此,法律上和事實上的標準化組織需要共同發(fā)布適合市場的大數據安全和隱私標準。
3 . 安全與隱私挑戰(zhàn)
如圖3所示將大數據生命周期劃分為數據收集、存儲、分析、使用和銷毀五個階段,接下來將介紹每個階段出現的數據安全問題和隱私風險。
圖3 大數據全生命周期
3.1 數據收集
數據收集階段,數據從不同的來源收集,具有不同的格式,如結構化、半結構化和非結構化。大數據平臺應該將安全措施優(yōu)先用于生命周期的收集階段,平臺最重要的是獲取可靠的數據,才能確保后續(xù)大數據分析以及各階段安全設計是有意義的,因此需要采取適當的措施來保障采集安全。
數據收集器可能會在未經任何同意的情況下不恰當地收集數據,從而侵犯提供商的數據主權,例如許多人在社交媒體和購物等日?;顒又腥狈ν庖庾R,無意間泄漏了自身隱私數據,也有可能通過各種攻擊(如欺騙、釣魚和垃圾郵件)來獲取敏感數據,因此需要采取一些授權手段對數據采集進行訪問控制。另外還需要采取額外的安全措施來防止數據泄漏,例如對某些數據字段進行加密,目前使用較廣泛的是同態(tài)加密技術。
3.2 數據存儲
在數據存儲階段,收集的數據被存儲于大型的數據中心供下一階段(即數據分析階段)使用,由于采集的數據中可能包含敏感信息,因此在存儲數據時采取有效的防范措施非常重要。存儲階段面臨的風險是多方面的,不僅包括來自外界黑客的攻擊、來自內部人員的信息竊取,還包括不同利益方對數據的超越權使用等。因此存儲階段需要通過物理安全和數據保護技術相結合的方式來應對多種威脅。在數據不完全可靠的情況下,例如在云環(huán)境中,通過隱私保護技術(例如加密和屏蔽)來維護數據的完整性和機密性。由于數據規(guī)模巨大,數據存儲業(yè)務需要堅持分布式存儲,敏感數據只能通過訪問控制提供給授權人員,如果敏感數據在未經同意的情況下被無意傳遞,必須立即銷毀。
3.3 數據分析
數據采集和存儲后,對數據進行處理和挖掘分析,生成有用的知識。數據分析階段使用了各種數據挖掘技術,如聚類、分類和關聯規(guī)則挖掘,為處理和分析提供一個安全的環(huán)境非常重要。數據挖掘者可以通過強大的挖掘算法識別敏感數據,使數據所有者容易受到隱私侵犯。因此,應該保護數據挖掘過程和分析結果不受基于挖掘的攻擊,只允許授權人員參與。另外在分析數據的過程中,隱私保護的效率與數據處理的效率成反比,即在保護敏感數據的同時很難提高處理效率,因此各種保護隱私挖掘技術和去身份識別技術正在開發(fā)中解決這一關鍵問題。
3.4 數據使用
數據使用階段是利用分析階段產生的重要信息,通過對敏感信息的分析組合創(chuàng)建新信息,將從各個領域收集的數據連接起來,幫助企業(yè)和個人識別推斷一些未來判斷,絕大部分屬于敏感信息,這些信息可以在未經同意的情況下用于其他目的。此外,決策者可能會與第三方共享敏感數據,以追求商業(yè)利益,因此需要審計跟蹤技術和隱私數據發(fā)布保護技術來解決這種風險。
3.5 數據銷毀
數據一旦不再進行預期目的分析或數據擁有者拒絕使用權,則必須銷毀數據。數據銷毀主要包括物理破壞硬盤或破壞存儲內容來破壞數據。破壞硬盤是借助外力直接粉碎存儲介質,一旦破壞將不能繼續(xù)使用。破壞數據本身如多次覆蓋寫,這些方法涉及到存儲數據的整個物理/邏輯空間的處理,很難只刪除部分數據,也很難核實處置的有效性。一些組織在達到預期目的且用戶撤回數據使用權的情況下仍然使用這些數據,而且一些人員將數據售賣給第三方公司換取利益,嚴重侵害了用戶的隱私。由于大數據本身特性,在分布式環(huán)境下,數據一般會使用覆蓋寫等技術破壞而不采用破壞硬盤的方式,國防機密才會采取銷毀硬盤的方式銷毀數據。
4 . 小 結
在本篇文章中,我們解讀了國際標準組織制定的現行標準,對相關研究分析發(fā)現目前的數據安全研究主要集中存儲和分析階段,數據收集和銷毀的研究較少,但大數據生命周期的各個階段都是相互關聯的,解決大數據的安全隱私問題,并不只是存儲和分析階段,希望對每個階段的安全加強都要重視起來,全方位解決數據安全問題。本文將大數據生命周期劃分為五個階段(收集、存儲、分析、使用和銷毀),為讀者解讀了大數據生命周期各階段出現風險與挑戰(zhàn)。在下篇中,我們將介紹應對這些風險與挑戰(zhàn)的安全技術。
參考文獻
[1] Koo, J., Kang, G., & Kim, Y. G. (2020). Security and Privacy in Big Data Life Cycle: A Survey and Open Challenges. Sustainability, 12(24), 10571.
[2] ISO—International Organization for Standardization. Available online:
https://www.iso.org/about-us.html(accessed on 27 October 2020).
[3] SAC—Standardization Administration of China—ISO. Available online:
https://www.iso.org/member/1635.html (accessed on 27 October 2020).
[4] IEEE SA—The IEEE Standards Association—Home. Available online: https://standards.ieee.org/ (accessed on27 October 2020).
[5] Apache Hadoop. Available online: https://hadoop.apache.org/ (accessed on 27 October 2020).