譯者 | 晶顏
審校 | 重樓
據(jù)《2024年IBM數(shù)據(jù)泄露成本報(bào)告》顯示,在全球范圍內(nèi),單次數(shù)據(jù)泄露事件平均給企業(yè)造成488萬(wàn)美元的損失。其中許多數(shù)據(jù)泄露是由于意外或故意對(duì)敏感信息處理不當(dāng)造成的。隨著企業(yè)對(duì)云協(xié)作工具、SaaS應(yīng)用程序以及全球數(shù)據(jù)共享的依賴程度與日俱增,數(shù)據(jù)丟失預(yù)防(DLP)解決方案已成為網(wǎng)絡(luò)安全領(lǐng)域的關(guān)鍵要素。
內(nèi)容檢測(cè)技術(shù)作為DLP工具的核心,承擔(dān)著識(shí)別和保護(hù)靜態(tài)、動(dòng)態(tài)以及使用中的機(jī)密數(shù)據(jù)的重任。本文探討了關(guān)鍵的內(nèi)容檢測(cè)技術(shù)、它們?cè)诟鱾€(gè)行業(yè)中的應(yīng)用以及有效部署的最佳實(shí)踐策略。
靜態(tài)VS.動(dòng)態(tài)VS.使用中的數(shù)據(jù)
數(shù)據(jù)丟失預(yù)防(DLP)解決方案通常根據(jù)其保護(hù)的數(shù)據(jù)狀態(tài)分為以下幾類:
- 靜態(tài)數(shù)據(jù)。這指的是存儲(chǔ)在數(shù)據(jù)庫(kù)、文件服務(wù)器和端點(diǎn)等位置的信息。
- 動(dòng)態(tài)數(shù)據(jù)。這是指通過網(wǎng)絡(luò)傳輸?shù)男畔ⅲ珉娮余]件、文件傳輸和即時(shí)消息。
- 使用中的數(shù)據(jù)。這指的是用戶正在訪問、編輯或共享的信息。
雖然大多數(shù)組織對(duì)靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)的保護(hù)較為熟悉,但使用中的數(shù)據(jù)提出了全新的挑戰(zhàn),尤其是在云協(xié)作平臺(tái)、實(shí)時(shí)文件共享和遠(yuǎn)程工作的背景下。DLP解決方案利用先進(jìn)的內(nèi)容檢測(cè)來應(yīng)對(duì)這三種狀態(tài)下數(shù)據(jù)保護(hù)的復(fù)雜性。
內(nèi)容檢測(cè)方法:分層方法
下述高級(jí)流程圖說明了不同的內(nèi)容檢測(cè)方法如何適用于更大的DLP過程:
正則表達(dá)式和模式匹配
RegEx是DLP系統(tǒng)中的一項(xiàng)基本技術(shù),用于搜索16位信用卡號(hào)碼或9位社會(huì)安全號(hào)碼等已知模式。對(duì)于直接的用例,它是快速、透明且易于實(shí)現(xiàn)的。
然而,維護(hù)復(fù)雜的RegEx規(guī)則可能具有挑戰(zhàn)性,通常需要專門的專業(yè)知識(shí)。如果不考慮上下文,它也容易產(chǎn)生誤報(bào)。例如,在金融服務(wù)中,RegEx通常用于通過檢測(cè)特定的數(shù)字序列來識(shí)別潛在的信用卡泄露。
基于規(guī)則的策略和字典
此方法依賴于可定制字典,其中包含與特定行業(yè)相關(guān)的敏感術(shù)語(yǔ)(如醫(yī)療代碼或法律術(shù)語(yǔ))以及策略規(guī)則。它提供了一種適合組織需求的微妙方法,使其比普通RegEx更有效。
然而,保持字典的準(zhǔn)確性需要定期更新,而且過于寬泛的策略可能導(dǎo)致誤報(bào)。例如,在醫(yī)療保健領(lǐng)域,使用與HIPAA相關(guān)的術(shù)語(yǔ)字典(如ICD-10代碼)在識(shí)別敏感信息時(shí)會(huì)觸發(fā)警報(bào)。
精確數(shù)據(jù)匹配(EDM)和指紋識(shí)別
EDM涉及從權(quán)威來源(如CRM數(shù)據(jù)庫(kù))創(chuàng)建敏感數(shù)據(jù)的獨(dú)特“指紋”。系統(tǒng)標(biāo)記與這些數(shù)字簽名匹配的出站文件,以最小的誤報(bào)確保高準(zhǔn)確性。
然而,它需要大量的設(shè)置和維護(hù),并且對(duì)于大型數(shù)據(jù)集來說可能屬于資源密集型任務(wù)。在銀行業(yè)中,這種方法對(duì)于保護(hù)存儲(chǔ)在核心銀行系統(tǒng)中的客戶記錄(如帳戶詳細(xì)信息和社會(huì)安全號(hào)碼)至關(guān)重要。
部分文檔匹配
與檢測(cè)精確匹配的EDM不同,部分文檔匹配識(shí)別敏感文檔的片段。此功能對(duì)于捕獲部分泄漏是必不可少的,例如在組織外部共享的法律合同或產(chǎn)品藍(lán)圖的幾頁(yè)。雖然在各種文件類型之間實(shí)現(xiàn)需要大量資源,而且很復(fù)雜,但它在法律部門尤為有價(jià)值,因?yàn)樗梢詸z測(cè)未經(jīng)授權(quán)共享敏感摘要的部分內(nèi)容。
機(jī)器學(xué)習(xí)(ML)和人工智能(AI)
現(xiàn)代DLP解決方案利用機(jī)器學(xué)習(xí)和人工智能根據(jù)學(xué)習(xí)到的示例(而非明確的規(guī)則)對(duì)內(nèi)容進(jìn)行分類。這些模型通常使用自然語(yǔ)言處理(NLP)和深度學(xué)習(xí)來適應(yīng)不斷變化的模式,從而減少了手動(dòng)創(chuàng)建規(guī)則的需要。
然而,它們需要高質(zhì)量的標(biāo)記數(shù)據(jù)、持續(xù)的再訓(xùn)練和大量的計(jì)算資源。人工智能也會(huì)成為一個(gè)“黑匣子”,使決策更難解釋。對(duì)于科技初創(chuàng)公司來說,通過訓(xùn)練大量工程文檔,人工智能模型在識(shí)別電子郵件或Git提交中的專有源代碼方面特別有用。
光學(xué)字符識(shí)別(OCR)
OCR將圖像或掃描文檔中的文本轉(zhuǎn)換為機(jī)器可讀的格式以供分析。這對(duì)于檢測(cè)屏幕截圖、掃描的PDF或ID和護(hù)照?qǐng)D像中的敏感信息至關(guān)重要。
然而,OCR的準(zhǔn)確性在很大程度上取決于圖像質(zhì)量和字體清晰度,處理多種語(yǔ)言或程式化文本時(shí)復(fù)雜性會(huì)加劇。在法律行業(yè),OCR經(jīng)常用于處理掃描的案件文件,確保敏感的客戶數(shù)據(jù)在共享之前得到識(shí)別和保護(hù)。
啟發(fā)式和上下文分析
啟發(fā)式分析通過評(píng)估用戶行為、元數(shù)據(jù)和環(huán)境因素(如位置、時(shí)間或用戶角色)來識(shí)別異常情況,如深夜將大文件傳輸?shù)絺€(gè)人電子郵件,打印活動(dòng)突然激增,或者不尋常的用戶頻繁訪問機(jī)密文件夾。
雖然這種方法提供了更大的上下文并有助于緩解內(nèi)部威脅,但它需要持續(xù)的調(diào)優(yōu)和更新才能保持有效性。如果監(jiān)控被認(rèn)為是侵入性的,還可能觸發(fā)隱私問題。在跨國(guó)公司中,啟發(fā)式方法在檢測(cè)可疑行為方面是無價(jià)的,比如員工在離開公司之前將大量數(shù)據(jù)導(dǎo)出到個(gè)人存儲(chǔ)中。
聚焦使用中的數(shù)據(jù):實(shí)時(shí)保護(hù)
隨著基于云的協(xié)作和SaaS應(yīng)用程序的激增,監(jiān)控使用中的數(shù)據(jù)變得越來越重要。擅長(zhǎng)掃描存儲(chǔ)文件或電子郵件附件的傳統(tǒng)DLP解決方案可能無法適應(yīng)這種動(dòng)態(tài)環(huán)境。
實(shí)時(shí)內(nèi)容分析
- 與生產(chǎn)力套件(如Microsoft 365、谷歌Workspace)集成,在文檔編輯過程中同步實(shí)施掃描。
- 實(shí)時(shí)識(shí)別敏感文本或模式,即刻觸發(fā)警報(bào)或啟動(dòng)加密程序。
水印和標(biāo)簽
- 在標(biāo)識(shí)分類級(jí)別或所有權(quán)的文檔中嵌入元數(shù)據(jù)或可見水印。
- 幫助跟蹤數(shù)據(jù)流并確保敏感文件保持可跟蹤性。
訪問控制列表(ACL)
- 限制應(yīng)用程序內(nèi)可對(duì)文檔執(zhí)行打開、編輯或共享操作的人員范圍。
- 提供細(xì)粒度控制,防止未經(jīng)授權(quán)的查看或分發(fā)行為。
例如,一個(gè)營(yíng)銷團(tuán)隊(duì)在谷歌文檔中協(xié)作制定新產(chǎn)品規(guī)格時(shí),DLP系統(tǒng)能夠實(shí)時(shí)標(biāo)記潛在的知識(shí)產(chǎn)權(quán)術(shù)語(yǔ),并提示用戶將文檔分類為“機(jī)密”。
以行業(yè)為導(dǎo)向的用例:內(nèi)容檢測(cè)的現(xiàn)實(shí)應(yīng)用
醫(yī)療保健
- 運(yùn)用光學(xué)字符識(shí)別(OCR)技術(shù)處理病例。使用OCR掃描患者表單,可識(shí)別和保護(hù)任何嵌入的個(gè)人健康信息(PHI)。
- 采用字典和基于規(guī)則的策略,為包含特定運(yùn)行狀況代碼或過程詳細(xì)信息的文件創(chuàng)建警報(bào)。
金融服務(wù)
- 利用正則表達(dá)式匹配信用卡號(hào),能夠快速檢測(cè)和屏蔽或阻止在電子郵件中出現(xiàn)的信用卡信息。
- 銀行賬戶數(shù)據(jù)的精確數(shù)據(jù)匹配(EDM)。在核心銀行記錄上使用指紋,以防止其未加密傳輸至組織外部。
法律行業(yè)
- 部分文檔匹配。比較法律合同的各個(gè)部分,以發(fā)現(xiàn)與外部方未經(jīng)授權(quán)的共享行為。
- 啟發(fā)式分析。標(biāo)記大量已上傳到個(gè)人云驅(qū)動(dòng)器的掃描案件文件。
制造與工程
- 基于AI的分類。使用機(jī)器學(xué)習(xí)來識(shí)別專有的CAD圖紙或設(shè)計(jì)文檔。
- 水印。在敏感藍(lán)圖中嵌入徽標(biāo)和分類標(biāo)簽,以跟蹤其分布路徑。
應(yīng)對(duì)零日威脅和動(dòng)態(tài)風(fēng)險(xiǎn)
DLP解決方案還必須適應(yīng)新出現(xiàn)的攻擊媒介,即零日威脅,也就是那些尚未被廣泛認(rèn)知或無法修補(bǔ)的漏洞及利用手段。可采用的方法包括:
- 異常檢測(cè)。使用人工智能為“正常”數(shù)據(jù)流和用戶行為設(shè)定基線,在出現(xiàn)偏差時(shí)觸發(fā)警報(bào)。
- 沙盒技術(shù)。在允許可疑文件或電子郵件附件通過之前,在安全的環(huán)境中隔離和分析它們。
- 持續(xù)更新。定期修補(bǔ)DLP軟件和更新檢測(cè)簽名,以跟上新威脅的發(fā)展態(tài)勢(shì)。
平衡安全性、可用性和隱私
在防止數(shù)據(jù)丟失的同時(shí),避免干擾合法工作流程或侵犯用戶隱私,是DLP面臨的重大挑戰(zhàn)之一。過于嚴(yán)格的規(guī)定會(huì)阻礙生產(chǎn)力;過于寬松的規(guī)則又可能為數(shù)據(jù)泄露敞開大門。為此,可采取下述平衡技巧:
- 分階段推進(jìn)。從“僅監(jiān)視”模式開始,收集觸發(fā)器的指標(biāo),并改進(jìn)策略。
- 基于角色制定政策。將檢測(cè)規(guī)則與工作職責(zé)保持一致。例如,人力資源團(tuán)隊(duì)可能需要訪問社會(huì)安全號(hào)碼,但營(yíng)銷團(tuán)隊(duì)不需要。
- 透明的溝通。向員工普及DLP掃描的內(nèi)容及其原因。
要點(diǎn)與結(jié)論
- 內(nèi)容檢測(cè)是穩(wěn)健DLP策略的引擎;它跨多種格式和渠道識(shí)別敏感信息。
- 現(xiàn)代DLP必須處理靜態(tài)、動(dòng)態(tài)和使用中的數(shù)據(jù),尤其是在云協(xié)作成為常態(tài)的情況下。
- 使用RegEx、字典、AI、OCR和啟發(fā)式的分層方法確保了全面的覆蓋。
- 上下文和行為分析可以幫助減少誤報(bào)和檢測(cè)內(nèi)部威脅。
- 隨著零日威脅的不斷發(fā)展,DLP解決方案必須結(jié)合異常檢測(cè)、沙箱和持續(xù)更新機(jī)制。
- 成功的DLP計(jì)劃在安全性、可用性和隱私之間取得了適當(dāng)?shù)钠胶?,這取決于持續(xù)的微調(diào)、用戶培訓(xùn)以及對(duì)組織風(fēng)險(xiǎn)概況的深刻理解。
原文標(biāo)題:Safeguarding Sensitive Data: Content Detection Technologies in DLP,作者:Praveen Kumar Myakala