如何利用人工智能和自動(dòng)化大規(guī)模識(shí)別敏感數(shù)據(jù)
人工智能敏感信息檢測(cè)服務(wù)商Text IQ公司首席執(zhí)行官Apoorv Agarwal日前在接受行業(yè)媒體采訪時(shí),對(duì)非結(jié)構(gòu)化數(shù)據(jù)面臨的潛在風(fēng)險(xiǎn)以及利用人工智能和自動(dòng)化技術(shù)大規(guī)模識(shí)別敏感數(shù)據(jù)進(jìn)行了分析和闡述。
當(dāng)企業(yè)試圖解決漏洞和勒索軟件攻擊時(shí),他們往往忽略了隱藏在其數(shù)據(jù)中的敏感信息。出現(xiàn)這種情況的主要原因是什么?
Agarwal:在理想情況下,企業(yè)應(yīng)該掌握敏感信息在其擁有的數(shù)據(jù)中的位置。一般來說,企業(yè)將會(huì)長時(shí)間保留他們收集的信息,即使這些信息對(duì)他們沒有真正的用處。我認(rèn)為這歸結(jié)為更廣泛的數(shù)據(jù)治理問題。
如果沒有實(shí)現(xiàn)一定程度的自動(dòng)化,就不可能有強(qiáng)大的數(shù)據(jù)治理。例如,企業(yè)生成的數(shù)據(jù)量呈指數(shù)級(jí)增長,依賴于工作人員對(duì)隱藏在其數(shù)據(jù)庫中的所有未被發(fā)現(xiàn)的敏感信息進(jìn)行評(píng)估,而且在通常情況下,非結(jié)構(gòu)化格式的數(shù)據(jù)需要進(jìn)行處理,因此無法大規(guī)模地開展工作。
數(shù)據(jù)泄露和勒索軟件攻擊的數(shù)量將持續(xù)增長,但企業(yè)可以利用人工智能技術(shù)應(yīng)對(duì),這使他們能夠主動(dòng)大規(guī)模識(shí)別敏感數(shù)據(jù)和個(gè)人數(shù)據(jù)。一旦識(shí)別了這些數(shù)據(jù),他們就可以選擇編輯、刪除、加密或采取任何必要的措施進(jìn)行保護(hù),以確保不會(huì)落入居心不良的人的手中。
非結(jié)構(gòu)化數(shù)據(jù)如何構(gòu)成風(fēng)險(xiǎn)以及可以采取哪些措施?
Agarwal:80%以上的企業(yè)數(shù)據(jù)是非結(jié)構(gòu)化的——其龐大的攻擊面使其非常容易成為網(wǎng)絡(luò)攻擊者的目標(biāo)。其次,這種非結(jié)構(gòu)化數(shù)據(jù)充滿了各種類型的敏感信息:商業(yè)秘密、個(gè)人信息、健康信息、知識(shí)產(chǎn)權(quán)等;例如,沒有人能夠構(gòu)建包含商業(yè)秘密的結(jié)構(gòu)化數(shù)據(jù)庫,更有可能散布在電子郵件、聊天記錄、Excel表格和其他形式的非結(jié)構(gòu)化數(shù)據(jù)中。
非結(jié)構(gòu)化數(shù)據(jù)帶來的挑戰(zhàn)是數(shù)據(jù)量巨大,找到其中的敏感信息就像大海撈針一樣,因此需要采用可擴(kuò)展的機(jī)器學(xué)習(xí)技術(shù)。
自動(dòng)化是唯一的出路還是人為因素仍然有價(jià)值?
Agarwal:我認(rèn)為數(shù)據(jù)的增長速度顯然比人口增長的速度更快。如果沒有足夠的人力,就沒有足夠的能力來處理任務(wù)的數(shù)量和復(fù)雜性。
我認(rèn)為同樣重要的是要注意,采用人工智能技術(shù)或機(jī)器人并不是只需按一下按鈕就可以自動(dòng)完成這些任務(wù),確實(shí)需要人類的幫助。而這項(xiàng)工作不能單獨(dú)由機(jī)器或人類完成。
能否解釋一下人工智能是如何識(shí)別和保護(hù)敏感信息的嗎?
Agarwal:人工智能不會(huì)保護(hù)敏感信息,但是會(huì)識(shí)別。一旦識(shí)別出敏感信息,企業(yè)就可以通過刪除、編輯、加密或更改對(duì)它的訪問控制來采取措施進(jìn)行保護(hù)。
其挑戰(zhàn)在于識(shí)別本身。在識(shí)別方面,如今采用的是一些過時(shí)的方法和技術(shù),例如RegEx和搜索詞。除了速度慢且可擴(kuò)展性不高之外,這些勞動(dòng)密集型方法產(chǎn)生的結(jié)果可能并不準(zhǔn)確。
但并非每個(gè)9位數(shù)字都是社會(huì)安全號(hào)碼(SSN)。另一方面,人工智能系統(tǒng)可以查看信息所在的場(chǎng)景,以更準(zhǔn)確地確定信息是否敏感。例如電子郵件。在分析電子郵件的敏感信息時(shí),人工智能能夠考慮場(chǎng)景,例如誰寫的、誰獲得、誰被復(fù)制到電子郵件鏈中的人之間的關(guān)系網(wǎng)絡(luò),以確定一些電子郵件是否敏感。
在理論上,人類可以對(duì)所有這些場(chǎng)景進(jìn)行評(píng)估和衡量,但沒有足夠的人手來實(shí)現(xiàn)這一點(diǎn);此外,雖然人類不擅長計(jì)算任務(wù),但更擅長抽象思維。
企業(yè)保護(hù)數(shù)據(jù)的方式可能對(duì)其整體業(yè)務(wù)和聲譽(yù)產(chǎn)生重大影響。您認(rèn)為他們對(duì)此有多了解?您認(rèn)為應(yīng)該改進(jìn)哪些方面?
Agarwal:很多企業(yè)對(duì)于數(shù)據(jù)泄露對(duì)整體業(yè)務(wù)和聲譽(yù)帶來的損失和影響非常了解。沒有哪一家企業(yè)認(rèn)為它完全不受數(shù)據(jù)泄露的影響。企業(yè)董事會(huì)成員了解這些非常重要。
這是可以改進(jìn)的地方。長期以來,很多企業(yè)一直依賴數(shù)據(jù)丟失防護(hù)、搜索詞和人工審核。他們真的需要轉(zhuǎn)向并利用人工智能等新技術(shù)。