自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

保護(hù)敏感數(shù)據(jù):DLP中的內(nèi)容檢測(cè)技術(shù)

譯文 精選
人工智能 數(shù)據(jù)安全
數(shù)據(jù)泄露的平均成本高達(dá)488萬(wàn)美元!本文將介紹DLP內(nèi)容檢測(cè)如何借助AI、RegEx、 OCR等技術(shù)來保護(hù)敏感數(shù)據(jù)。

譯者 | 晶顏

審校 | 重樓

據(jù)《2024年IBM數(shù)據(jù)泄露成本報(bào)告》顯示,在全球范圍內(nèi),單次數(shù)據(jù)泄露事件平均給企業(yè)造成488萬(wàn)美元的損失。其中許多數(shù)據(jù)泄露是由于意外或故意對(duì)敏感信息處理不當(dāng)造成的。隨著企業(yè)對(duì)云協(xié)作工具、SaaS應(yīng)用程序以及全球數(shù)據(jù)共享的依賴程度與日俱增,數(shù)據(jù)丟失預(yù)防(DLP)解決方案已成為網(wǎng)絡(luò)安全領(lǐng)域的關(guān)鍵要素

內(nèi)容檢測(cè)技術(shù)作為DLP工具的核心,承擔(dān)著識(shí)別和保護(hù)靜態(tài)、動(dòng)態(tài)以及使用中的機(jī)密數(shù)據(jù)的重任。本文探討了關(guān)鍵的內(nèi)容檢測(cè)技術(shù)、它們?cè)诟鱾€(gè)行業(yè)中的應(yīng)用以及有效部署的最佳實(shí)踐策略。

靜態(tài)VS.動(dòng)態(tài)VS.使用中的數(shù)據(jù)

數(shù)據(jù)丟失預(yù)防(DLP)解決方案通常根據(jù)其保護(hù)的數(shù)據(jù)狀態(tài)分為以下幾類

  • 靜態(tài)數(shù)據(jù)。這指的是存儲(chǔ)在數(shù)據(jù)庫(kù)、文件服務(wù)器和端點(diǎn)等位置的信息。
  • 動(dòng)態(tài)數(shù)據(jù)。這是指通過網(wǎng)絡(luò)傳輸?shù)男畔ⅲ珉娮余]件、文件傳輸和即時(shí)消息。
  • 使用中數(shù)據(jù)。這指的是用戶正在訪問、編輯或共享的信息。

雖然大多數(shù)組織對(duì)靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)的保護(hù)較為熟悉,但使用中的數(shù)據(jù)提出了新的挑戰(zhàn),尤其是在云協(xié)作平臺(tái)、實(shí)時(shí)文件共享和遠(yuǎn)程工作的背景下。DLP解決方案利用先進(jìn)的內(nèi)容檢測(cè)來應(yīng)對(duì)這三種狀態(tài)下數(shù)據(jù)保護(hù)的復(fù)雜性。

內(nèi)容檢測(cè)方法:分層方法

下述高級(jí)流程圖說明了不同的內(nèi)容檢測(cè)方法如何適用于更大的DLP過程:

正則表達(dá)式和模式匹配

RegEx是DLP系統(tǒng)中的一項(xiàng)基本技術(shù),用于搜索16位信用卡號(hào)碼或9位社會(huì)安全號(hào)碼等已知模式。對(duì)于直接的用例,它是快速、透明實(shí)現(xiàn)的。

然而,維護(hù)復(fù)雜的RegEx規(guī)則可能具有挑戰(zhàn)性,通常需要專門的專業(yè)知識(shí)。如果不考慮上下文,它也容易產(chǎn)生誤報(bào)。例如,在金融服務(wù)中,RegEx通常用于通過檢測(cè)特定的數(shù)字序列來識(shí)別潛在的信用卡泄露。

基于規(guī)則的策略和字典

此方法依賴于可定制字典,其中包含與特定行業(yè)相關(guān)的敏感術(shù)語(yǔ)(如醫(yī)療代碼或法律術(shù)語(yǔ))以及策略規(guī)則。它提供了一種適合組織需求的微妙方法,使其比普通RegEx更有效。

然而,保持字典的準(zhǔn)確性需要定期更新,而且過于寬泛的策略可能導(dǎo)致誤報(bào)。例如,在醫(yī)療保健領(lǐng)域,使用與HIPAA相關(guān)的術(shù)語(yǔ)字典(如ICD-10代碼)在識(shí)別敏感信息時(shí)會(huì)觸發(fā)警報(bào)。

精確數(shù)據(jù)匹配(EDM)和指紋識(shí)別

EDM涉及從權(quán)威來源(如CRM數(shù)據(jù)庫(kù))創(chuàng)建敏感數(shù)據(jù)的獨(dú)特指紋。系統(tǒng)標(biāo)記與這些數(shù)字簽名匹配的出站文件,以最小的誤報(bào)確保高準(zhǔn)確性。

然而,它需要大量的設(shè)置和維護(hù),并且對(duì)于大型數(shù)據(jù)集來說可能屬于資源密集型任務(wù)。在銀行業(yè)中,這種方法對(duì)于保護(hù)存儲(chǔ)在核心銀行系統(tǒng)中的客戶記錄(如帳戶詳細(xì)信息和社會(huì)安全號(hào)碼)至關(guān)重要。

部分文檔匹配

與檢測(cè)精確匹配的EDM不同,部分文檔匹配識(shí)別敏感文檔的片段。此功能對(duì)于捕獲部分泄漏是必不可少的,例如在組織外部共享的法律合同或產(chǎn)品藍(lán)圖的幾頁(yè)。雖然在各種文件類型之間實(shí)現(xiàn)需要大量資源,而且很復(fù)雜,但它在法律部門尤為有價(jià)值,因?yàn)樗梢詸z測(cè)未經(jīng)授權(quán)共享敏感摘要的部分內(nèi)容。

機(jī)器學(xué)習(xí)(ML)和人工智能(AI)

現(xiàn)代DLP解決方案利用機(jī)器學(xué)習(xí)和人工智能根據(jù)學(xué)習(xí)到的示例明確的規(guī)則對(duì)內(nèi)容進(jìn)行分類。這些模型通常使用自然語(yǔ)言處理(NLP)和深度學(xué)習(xí)來適應(yīng)不斷變化的模式,從而減少了手動(dòng)創(chuàng)建規(guī)則的需要。

然而,它們需要高質(zhì)量的標(biāo)記數(shù)據(jù)、持續(xù)的再訓(xùn)練和大量的計(jì)算資源。人工智能也會(huì)成為個(gè)“黑匣子,使決策更難解釋。對(duì)于科技初創(chuàng)公司來說,通過訓(xùn)練大量工程文檔,人工智能模型在識(shí)別電子郵件或Git提交中的專有源代碼方面特別有用。

光學(xué)字符識(shí)別(OCR)

OCR將圖像或掃描文檔中的文本轉(zhuǎn)換為機(jī)器可讀的格式以供分析。這對(duì)于檢測(cè)屏幕截圖、掃描的PDFID和護(hù)照?qǐng)D像中的敏感信息至關(guān)重要。

然而,OCR的準(zhǔn)確性在很大程度上取決于圖像質(zhì)量和字體清晰度,處理多種語(yǔ)言或程式化文本時(shí)復(fù)雜性會(huì)加劇。在法律行業(yè),OCR經(jīng)常用于處理掃描的案件文件,確保敏感的客戶數(shù)據(jù)在共享之前得到識(shí)別和保護(hù)。

啟發(fā)式和上下文分析

啟發(fā)式分析通過評(píng)估用戶行為、元數(shù)據(jù)和環(huán)境因素(如位置、時(shí)間或用戶角色)來識(shí)別異常情況,如深夜將大文件傳輸?shù)絺€(gè)人電子郵件,打印活動(dòng)突然激增,或者不尋常的用戶頻繁訪問機(jī)密文件夾。

雖然這種方法提供了更大的上下文并有助于緩解內(nèi)部威脅,但它需要持續(xù)的調(diào)優(yōu)和更新才能保持有效性。如果監(jiān)控被認(rèn)為是侵入性的,還可能觸發(fā)隱私問題。在跨國(guó)公司中,啟發(fā)式方法在檢測(cè)可疑行為方面是無價(jià)的,比如員工在離開公司之前將大量數(shù)據(jù)導(dǎo)出到個(gè)人存儲(chǔ)中。

聚焦使用中的數(shù)據(jù):實(shí)時(shí)保護(hù)

隨著基于云的協(xié)作和SaaS應(yīng)用程序的激增,監(jiān)控使用中的數(shù)據(jù)變得越來越重要。擅長(zhǎng)掃描存儲(chǔ)文件或電子郵件附件的傳統(tǒng)DLP解決方案可能無法適應(yīng)這種動(dòng)態(tài)環(huán)境。

實(shí)時(shí)內(nèi)容分析

  • 與生產(chǎn)力套件(Microsoft 365、谷歌Workspace)集成,在文檔編輯過程中同步實(shí)施掃描。
  • 實(shí)時(shí)識(shí)別敏感文本或模式,即刻觸發(fā)警報(bào)或啟動(dòng)加密程序

水印和標(biāo)簽

  • 在標(biāo)識(shí)分類級(jí)別或所有權(quán)的文檔中嵌入元數(shù)據(jù)或可見水印。
  • 幫助跟蹤數(shù)據(jù)流并確保敏感文件保持可跟蹤性。

訪問控制列表(ACL)

  • 限制應(yīng)用程序內(nèi)可對(duì)文檔執(zhí)行打開、編輯或共享操作的人員范圍。
  • 提供細(xì)粒度控制,防止未經(jīng)授權(quán)的查看或分發(fā)行為。

例如,一個(gè)營(yíng)銷團(tuán)隊(duì)在谷歌文檔中協(xié)作制定新產(chǎn)品規(guī)格時(shí),DLP系統(tǒng)能夠實(shí)時(shí)標(biāo)記潛在的知識(shí)產(chǎn)權(quán)術(shù)語(yǔ),并提示用戶將文檔分類為機(jī)密。

以行業(yè)為導(dǎo)向的用例:內(nèi)容檢測(cè)的現(xiàn)實(shí)應(yīng)用

醫(yī)療保健

  • 運(yùn)用光學(xué)字符識(shí)別(OCR)技術(shù)處理病例。使用OCR掃描患者表單,可識(shí)別和保護(hù)任何嵌入的個(gè)人健康信息(PHI)。
  • 采用字典和基于規(guī)則的策略,為包含特定運(yùn)行狀況代碼或過程詳細(xì)信息的文件創(chuàng)建警報(bào)。

金融服務(wù)

  • 利用正則表達(dá)式匹配信用卡號(hào),能夠快速檢測(cè)和屏蔽或阻止電子郵件中出現(xiàn)的信用卡信息
  • 銀行賬戶數(shù)據(jù)的精確數(shù)據(jù)匹配(EDM)。在核心銀行記錄上使用指紋,以防止其未加密傳輸組織外部。

法律行業(yè)

  • 部分文檔匹配。比較法律合同的各個(gè)部分,以發(fā)現(xiàn)與外部方未經(jīng)授權(quán)的共享行為。
  • 啟發(fā)式分析。標(biāo)記大量已上傳到個(gè)人云驅(qū)動(dòng)器的掃描案件文件。

制造與工程

  • 基于AI的分類。使用機(jī)器學(xué)習(xí)來識(shí)別專有的CAD圖紙或設(shè)計(jì)文檔。
  • 水印。在敏感藍(lán)圖中嵌入徽標(biāo)和分類標(biāo)簽,以跟蹤其分布路徑。

應(yīng)對(duì)零日威脅和動(dòng)態(tài)風(fēng)險(xiǎn)

DLP解決方案還必須適應(yīng)新出現(xiàn)的攻擊媒介,零日威脅,也就是那些尚未被廣泛認(rèn)知或無法修補(bǔ)的漏洞及利用手段可采用的方法包括:

  • 異常檢測(cè)。使用人工智能為正常數(shù)據(jù)流和用戶行為設(shè)定基線,在出現(xiàn)偏差時(shí)觸發(fā)警報(bào)。
  • 沙盒技術(shù)。在允許可疑文件或電子郵件附件通過之前,在安全的環(huán)境中隔離和分析它們。
  • 持續(xù)更新。定期修補(bǔ)DLP軟件和更新檢測(cè)簽名,以跟上新威脅的發(fā)展態(tài)勢(shì)。

平衡安全性、可用性和隱私

在防止數(shù)據(jù)丟失的同時(shí),避免干擾合法工作流程或侵犯用戶隱私,是DLP面臨的重大挑戰(zhàn)之一。過于嚴(yán)格的規(guī)定會(huì)阻礙生產(chǎn)力;過于寬松的規(guī)則可能為數(shù)據(jù)泄露敞開大門。為此,可采取下述平衡技巧

  • 分階段推進(jìn)。從僅監(jiān)視模式開始,收集觸發(fā)器的指標(biāo),并改進(jìn)策略。
  • 基于角色制定政策。檢測(cè)規(guī)則與工作職責(zé)保持一致。例如,人力資源團(tuán)隊(duì)可能需要訪問社會(huì)安全號(hào)碼,但營(yíng)銷團(tuán)隊(duì)不需要。
  • 透明的溝通員工普及DLP掃描的內(nèi)容及其原因。

要點(diǎn)與結(jié)論

  • 內(nèi)容檢測(cè)是穩(wěn)健DLP策略的引擎;它跨多種格式和渠道識(shí)別敏感信息。
  • 現(xiàn)代DLP必須處理靜態(tài)、動(dòng)態(tài)和使用中的數(shù)據(jù),尤其是在云協(xié)作成為常態(tài)的情況下。
  • 使用RegEx、字典、AI、OCR和啟發(fā)式的分層方法確保了全面的覆蓋。
  • 上下文和行為分析可以幫助減少誤報(bào)和檢測(cè)內(nèi)部威脅。
  • 隨著零日威脅的不斷發(fā)展,DLP解決方案必須結(jié)合異常檢測(cè)、沙箱和持續(xù)更新機(jī)制
  • 成功的DLP計(jì)劃在安全性、可用性和隱私之間取得了適當(dāng)?shù)钠胶?,這取決于持續(xù)的微調(diào)、用戶培訓(xùn)以及對(duì)組織風(fēng)險(xiǎn)概況的深刻理解。

原文標(biāo)題:Safeguarding Sensitive Data: Content Detection Technologies in DLP作者:Praveen Kumar Myakala

責(zé)任編輯:姜華 來源: 51CTO
相關(guān)推薦

2012-04-12 14:45:12

賽門鐵克云南電網(wǎng)

2012-06-12 15:26:35

防泄密軟件數(shù)據(jù)防泄密防泄密

2012-07-24 23:28:39

數(shù)據(jù)防泄密天榕DLP

2009-04-20 15:59:51

數(shù)據(jù)丟失產(chǎn)品RSA

2013-09-12 13:23:06

2010-03-05 11:03:06

DLP敏感數(shù)據(jù)

2023-10-23 10:39:05

2023-10-30 15:35:05

數(shù)據(jù)安全數(shù)據(jù)驅(qū)動(dòng)

2021-08-27 16:26:11

敏感數(shù)據(jù)

2010-09-27 10:15:15

2024-01-01 15:53:25

2020-04-16 08:00:00

Ansible Vau敏感數(shù)據(jù)加密

2021-09-16 10:11:15

Dataphin 數(shù)據(jù)保護(hù)

2021-09-18 10:06:06

數(shù)據(jù)安全隱私計(jì)算大數(shù)據(jù)

2021-03-23 14:34:25

敏感數(shù)據(jù)云安全漏洞

2021-03-19 11:13:07

SaaS云平臺(tái)

2024-01-01 14:19:11

2020-12-20 17:30:17

數(shù)據(jù)匿名化敏感數(shù)據(jù)數(shù)據(jù)庫(kù)

2024-03-05 09:40:35

2010-05-14 13:50:57

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)