自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="jg0qo"></cite>

<style id="jg0qo"></style>

<cite id="jg0qo"><track id="jg0qo"></track></cite>

<blockquote id="jg0qo"><p id="jg0qo"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

保護(hù)敏感數(shù)據(jù)：DLP中的內(nèi)容檢測(cè)技術(shù)

作者：晶顏 2025-04-28 08:08:14

人工智能數(shù)據(jù)安全

數(shù)據(jù)泄露的平均成本高達(dá)488萬(wàn)美元！本文將介紹DLP內(nèi)容檢測(cè)如何借助AI、RegEx、 OCR等技術(shù)來保護(hù)敏感數(shù)據(jù)。

譯者 | 晶顏

審校 | 重樓

據(jù)《2024年IBM數(shù)據(jù)泄露成本報(bào)告》顯示，在全球范圍內(nèi)，單次數(shù)據(jù)泄露事件平均給企業(yè)造成488萬(wàn)美元的損失。其中許多數(shù)據(jù)泄露是由于意外或故意對(duì)敏感信息處理不當(dāng)造成的。隨著企業(yè)對(duì)云協(xié)作工具、SaaS應(yīng)用程序以及全球數(shù)據(jù)共享的依賴程度與日俱增，數(shù)據(jù)丟失預(yù)防（DLP）解決方案已成為網(wǎng)絡(luò)安全領(lǐng)域的關(guān)鍵要素。

內(nèi)容檢測(cè)技術(shù)作為DLP工具的核心，承擔(dān)著識(shí)別和保護(hù)靜態(tài)、動(dòng)態(tài)以及使用中的機(jī)密數(shù)據(jù)的重任。本文探討了關(guān)鍵的內(nèi)容檢測(cè)技術(shù)、它們?cè)诟鱾€(gè)行業(yè)中的應(yīng)用以及有效部署的最佳實(shí)踐策略。

靜態(tài)VS.動(dòng)態(tài)VS.使用中的數(shù)據(jù)

數(shù)據(jù)丟失預(yù)防（DLP）解決方案通常根據(jù)其保護(hù)的數(shù)據(jù)狀態(tài)分為以下幾類：

靜態(tài)數(shù)據(jù)。這指的是存儲(chǔ)在數(shù)據(jù)庫(kù)、文件服務(wù)器和端點(diǎn)等位置的信息。
動(dòng)態(tài)數(shù)據(jù)。這是指通過網(wǎng)絡(luò)傳輸?shù)男畔ⅲ珉娮余]件、文件傳輸和即時(shí)消息。
使用中的數(shù)據(jù)。這指的是用戶正在訪問、編輯或共享的信息。

雖然大多數(shù)組織對(duì)靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)的保護(hù)較為熟悉，但使用中的數(shù)據(jù)提出了全新的挑戰(zhàn)，尤其是在云協(xié)作平臺(tái)、實(shí)時(shí)文件共享和遠(yuǎn)程工作的背景下。DLP解決方案利用先進(jìn)的內(nèi)容檢測(cè)來應(yīng)對(duì)這三種狀態(tài)下數(shù)據(jù)保護(hù)的復(fù)雜性。

內(nèi)容檢測(cè)方法：分層方法

下述高級(jí)流程圖說明了不同的內(nèi)容檢測(cè)方法如何適用于更大的DLP過程：

正則表達(dá)式和模式匹配

RegEx是DLP系統(tǒng)中的一項(xiàng)基本技術(shù)，用于搜索16位信用卡號(hào)碼或9位社會(huì)安全號(hào)碼等已知模式。對(duì)于直接的用例，它是快速、透明且易于實(shí)現(xiàn)的。

然而，維護(hù)復(fù)雜的RegEx規(guī)則可能具有挑戰(zhàn)性，通常需要專門的專業(yè)知識(shí)。如果不考慮上下文，它也容易產(chǎn)生誤報(bào)。例如，在金融服務(wù)中，RegEx通常用于通過檢測(cè)特定的數(shù)字序列來識(shí)別潛在的信用卡泄露。

基于規(guī)則的策略和字典

此方法依賴于可定制字典，其中包含與特定行業(yè)相關(guān)的敏感術(shù)語(yǔ)（如醫(yī)療代碼或法律術(shù)語(yǔ)）以及策略規(guī)則。它提供了一種適合組織需求的微妙方法，使其比普通RegEx更有效。

然而，保持字典的準(zhǔn)確性需要定期更新，而且過于寬泛的策略可能導(dǎo)致誤報(bào)。例如，在醫(yī)療保健領(lǐng)域，使用與HIPAA相關(guān)的術(shù)語(yǔ)字典（如ICD-10代碼）在識(shí)別敏感信息時(shí)會(huì)觸發(fā)警報(bào)。

精確數(shù)據(jù)匹配（EDM）和指紋識(shí)別

EDM涉及從權(quán)威來源（如CRM數(shù)據(jù)庫(kù)）創(chuàng)建敏感數(shù)據(jù)的獨(dú)特“指紋”。系統(tǒng)標(biāo)記與這些數(shù)字簽名匹配的出站文件，以最小的誤報(bào)確保高準(zhǔn)確性。

然而，它需要大量的設(shè)置和維護(hù)，并且對(duì)于大型數(shù)據(jù)集來說可能屬于資源密集型任務(wù)。在銀行業(yè)中，這種方法對(duì)于保護(hù)存儲(chǔ)在核心銀行系統(tǒng)中的客戶記錄（如帳戶詳細(xì)信息和社會(huì)安全號(hào)碼）至關(guān)重要。

部分文檔匹配

與檢測(cè)精確匹配的EDM不同，部分文檔匹配識(shí)別敏感文檔的片段。此功能對(duì)于捕獲部分泄漏是必不可少的，例如在組織外部共享的法律合同或產(chǎn)品藍(lán)圖的幾頁(yè)。雖然在各種文件類型之間實(shí)現(xiàn)需要大量資源，而且很復(fù)雜，但它在法律部門尤為有價(jià)值，因?yàn)樗梢詸z測(cè)未經(jīng)授權(quán)共享敏感摘要的部分內(nèi)容。

機(jī)器學(xué)習(xí)（ML）和人工智能（AI）

現(xiàn)代DLP解決方案利用機(jī)器學(xué)習(xí)和人工智能根據(jù)學(xué)習(xí)到的示例（而非明確的規(guī)則）對(duì)內(nèi)容進(jìn)行分類。這些模型通常使用自然語(yǔ)言處理（NLP）和深度學(xué)習(xí)來適應(yīng)不斷變化的模式，從而減少了手動(dòng)創(chuàng)建規(guī)則的需要。

然而，它們需要高質(zhì)量的標(biāo)記數(shù)據(jù)、持續(xù)的再訓(xùn)練和大量的計(jì)算資源。人工智能也會(huì)成為一個(gè)“黑匣子”，使決策更難解釋。對(duì)于科技初創(chuàng)公司來說，通過訓(xùn)練大量工程文檔，人工智能模型在識(shí)別電子郵件或Git提交中的專有源代碼方面特別有用。

光學(xué)字符識(shí)別（OCR）

OCR將圖像或掃描文檔中的文本轉(zhuǎn)換為機(jī)器可讀的格式以供分析。這對(duì)于檢測(cè)屏幕截圖、掃描的PDF或ID和護(hù)照?qǐng)D像中的敏感信息至關(guān)重要。

然而，OCR的準(zhǔn)確性在很大程度上取決于圖像質(zhì)量和字體清晰度，處理多種語(yǔ)言或程式化文本時(shí)復(fù)雜性會(huì)加劇。在法律行業(yè)，OCR經(jīng)常用于處理掃描的案件文件，確保敏感的客戶數(shù)據(jù)在共享之前得到識(shí)別和保護(hù)。

啟發(fā)式和上下文分析

啟發(fā)式分析通過評(píng)估用戶行為、元數(shù)據(jù)和環(huán)境因素（如位置、時(shí)間或用戶角色）來識(shí)別異常情況，如深夜將大文件傳輸?shù)絺€(gè)人電子郵件，打印活動(dòng)突然激增，或者不尋常的用戶頻繁訪問機(jī)密文件夾。

雖然這種方法提供了更大的上下文并有助于緩解內(nèi)部威脅，但它需要持續(xù)的調(diào)優(yōu)和更新才能保持有效性。如果監(jiān)控被認(rèn)為是侵入性的，還可能觸發(fā)隱私問題。在跨國(guó)公司中，啟發(fā)式方法在檢測(cè)可疑行為方面是無價(jià)的，比如員工在離開公司之前將大量數(shù)據(jù)導(dǎo)出到個(gè)人存儲(chǔ)中。

聚焦使用中的數(shù)據(jù)：實(shí)時(shí)保護(hù)

隨著基于云的協(xié)作和SaaS應(yīng)用程序的激增，監(jiān)控使用中的數(shù)據(jù)變得越來越重要。擅長(zhǎng)掃描存儲(chǔ)文件或電子郵件附件的傳統(tǒng)DLP解決方案可能無法適應(yīng)這種動(dòng)態(tài)環(huán)境。

實(shí)時(shí)內(nèi)容分析

與生產(chǎn)力套件（如Microsoft 365、谷歌Workspace）集成，在文檔編輯過程中同步實(shí)施掃描。
實(shí)時(shí)識(shí)別敏感文本或模式，即刻觸發(fā)警報(bào)或啟動(dòng)加密程序。

水印和標(biāo)簽

在標(biāo)識(shí)分類級(jí)別或所有權(quán)的文檔中嵌入元數(shù)據(jù)或可見水印。
幫助跟蹤數(shù)據(jù)流并確保敏感文件保持可跟蹤性。

訪問控制列表（ACL）

限制應(yīng)用程序內(nèi)可對(duì)文檔執(zhí)行打開、編輯或共享操作的人員范圍。
提供細(xì)粒度控制，防止未經(jīng)授權(quán)的查看或分發(fā)行為。

例如，一個(gè)營(yíng)銷團(tuán)隊(duì)在谷歌文檔中協(xié)作制定新產(chǎn)品規(guī)格時(shí)，DLP系統(tǒng)能夠實(shí)時(shí)標(biāo)記潛在的知識(shí)產(chǎn)權(quán)術(shù)語(yǔ)，并提示用戶將文檔分類為“機(jī)密”。

以行業(yè)為導(dǎo)向的用例：內(nèi)容檢測(cè)的現(xiàn)實(shí)應(yīng)用

醫(yī)療保健

運(yùn)用光學(xué)字符識(shí)別（OCR）技術(shù)處理病例。使用OCR掃描患者表單，可識(shí)別和保護(hù)任何嵌入的個(gè)人健康信息（PHI）。
采用字典和基于規(guī)則的策略，為包含特定運(yùn)行狀況代碼或過程詳細(xì)信息的文件創(chuàng)建警報(bào)。

金融服務(wù)

利用正則表達(dá)式匹配信用卡號(hào)，能夠快速檢測(cè)和屏蔽或阻止在電子郵件中出現(xiàn)的信用卡信息。
銀行賬戶數(shù)據(jù)的精確數(shù)據(jù)匹配（EDM）。在核心銀行記錄上使用指紋，以防止其未加密傳輸至組織外部。

法律行業(yè)

部分文檔匹配。比較法律合同的各個(gè)部分，以發(fā)現(xiàn)與外部方未經(jīng)授權(quán)的共享行為。
啟發(fā)式分析。標(biāo)記大量已上傳到個(gè)人云驅(qū)動(dòng)器的掃描案件文件。

制造與工程

基于AI的分類。使用機(jī)器學(xué)習(xí)來識(shí)別專有的CAD圖紙或設(shè)計(jì)文檔。
水印。在敏感藍(lán)圖中嵌入徽標(biāo)和分類標(biāo)簽，以跟蹤其分布路徑。

應(yīng)對(duì)零日威脅和動(dòng)態(tài)風(fēng)險(xiǎn)

DLP解決方案還必須適應(yīng)新出現(xiàn)的攻擊媒介，即零日威脅，也就是那些尚未被廣泛認(rèn)知或無法修補(bǔ)的漏洞及利用手段。可采用的方法包括：

異常檢測(cè)。使用人工智能為“正常”數(shù)據(jù)流和用戶行為設(shè)定基線，在出現(xiàn)偏差時(shí)觸發(fā)警報(bào)。
沙盒技術(shù)。在允許可疑文件或電子郵件附件通過之前，在安全的環(huán)境中隔離和分析它們。
持續(xù)更新。定期修補(bǔ)DLP軟件和更新檢測(cè)簽名，以跟上新威脅的發(fā)展態(tài)勢(shì)。

平衡安全性、可用性和隱私

在防止數(shù)據(jù)丟失的同時(shí)，避免干擾合法工作流程或侵犯用戶隱私，是DLP面臨的重大挑戰(zhàn)之一。過于嚴(yán)格的規(guī)定會(huì)阻礙生產(chǎn)力；過于寬松的規(guī)則又可能為數(shù)據(jù)泄露敞開大門。為此，可采取下述平衡技巧：

分階段推進(jìn)。從“僅監(jiān)視”模式開始，收集觸發(fā)器的指標(biāo)，并改進(jìn)策略。
基于角色制定政策。將檢測(cè)規(guī)則與工作職責(zé)保持一致。例如，人力資源團(tuán)隊(duì)可能需要訪問社會(huì)安全號(hào)碼，但營(yíng)銷團(tuán)隊(duì)不需要。
透明的溝通。向員工普及DLP掃描的內(nèi)容及其原因。

要點(diǎn)與結(jié)論

內(nèi)容檢測(cè)是穩(wěn)健DLP策略的引擎；它跨多種格式和渠道識(shí)別敏感信息。
現(xiàn)代DLP必須處理靜態(tài)、動(dòng)態(tài)和使用中的數(shù)據(jù)，尤其是在云協(xié)作成為常態(tài)的情況下。
使用RegEx、字典、AI、OCR和啟發(fā)式的分層方法確保了全面的覆蓋。
上下文和行為分析可以幫助減少誤報(bào)和檢測(cè)內(nèi)部威脅。
隨著零日威脅的不斷發(fā)展，DLP解決方案必須結(jié)合異常檢測(cè)、沙箱和持續(xù)更新機(jī)制。
成功的DLP計(jì)劃在安全性、可用性和隱私之間取得了適當(dāng)?shù)钠胶?，這取決于持續(xù)的微調(diào)、用戶培訓(xùn)以及對(duì)組織風(fēng)險(xiǎn)概況的深刻理解。

原文標(biāo)題：Safeguarding Sensitive Data: Content Detection Technologies in DLP，作者：Praveen Kumar Myakala

責(zé)任編輯：姜華來源： 51CTO

數(shù)據(jù)泄露 AI RegEx

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="ce63r"></sub>