譯者 | 布加迪
審校 | 重樓
現(xiàn)代技術(shù)遠(yuǎn)非萬無一失——比如說,我們可以看到,眾多漏洞不斷涌現(xiàn)出來。雖然通過設(shè)計保證安全的系統(tǒng)是一條屢試不爽的最佳實(shí)踐,但這么做可能會分流來自其他方面的資源,比如用戶體驗(yàn)(UX)設(shè)計、性能優(yōu)化以及與其他解決方案及服務(wù)的互操作性。
因此,安全常常退居次席,只滿足最低限度的合規(guī)要求。如果涉及敏感數(shù)據(jù),這種取舍尤其令人擔(dān)憂,因?yàn)?/span>這類數(shù)據(jù)需要與其重要性相對應(yīng)的保護(hù)。如今,在人工智能和機(jī)器學(xué)習(xí)系統(tǒng)中,安全措施不到位的風(fēng)險越來越明顯。在這類系統(tǒng)中,數(shù)據(jù)是其功能的基礎(chǔ)。
什么是數(shù)據(jù)中毒?
人工智能/機(jī)器學(xué)習(xí)模型立足于核心訓(xùn)練數(shù)據(jù)集,這些數(shù)據(jù)集通過監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)不斷更新。機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的主要途徑,機(jī)器學(xué)習(xí)支持深度學(xué)習(xí),以開發(fā)人工智能的許多功能。數(shù)據(jù)越多樣化、越可靠,模型的輸出就越準(zhǔn)確、越有用。因此在訓(xùn)練期間,這些模型需要訪問大量的數(shù)據(jù)。
另一方面,依賴大量數(shù)據(jù)也帶來了風(fēng)險,因?yàn)槲唇?jīng)驗(yàn)證或?qū)彶椴?/span>力的數(shù)據(jù)集增加了結(jié)果不可靠的可能性。眾所周知,生成式人工智能、尤其是大語言模型(LLM)及其分支(比如人工智能助手)特別容易受到惡意篡改模型的攻擊。
最陰險的威脅之一是數(shù)據(jù)(或數(shù)據(jù)庫)中毒,即攻擊者試圖改變模型的行為,導(dǎo)致模型生成不正確、有偏見甚至有害的輸出。這種篡改行為帶來的后果可能波及整個應(yīng)用程序,破壞信任,并給個人和組織都帶來系統(tǒng)性風(fēng)險。
數(shù)據(jù)中毒的類型
數(shù)據(jù)中毒攻擊有多種類型,例如:
- 數(shù)據(jù)注入:攻擊者將惡意數(shù)據(jù)點(diǎn)注入到訓(xùn)練數(shù)據(jù)中,使人工智能模型改變其行為。一個典例是,在線用戶慢慢地改變Tay Twitter機(jī)器人程序,以發(fā)布攻擊性推文。
- 內(nèi)部攻擊:與常規(guī)的內(nèi)部威脅一樣,員工可能會濫用訪問權(quán)限來改變模型的訓(xùn)練集,一點(diǎn)點(diǎn)改變以篡改模型的行為。內(nèi)部攻擊尤其陰險,因?yàn)樗鼈兝?/span>了合法訪問權(quán)。
- 觸發(fā)器注入:這種攻擊將數(shù)據(jù)注入到人工智能模型的訓(xùn)練集以創(chuàng)建觸發(fā)器。這使攻擊者能夠繞過模型的安全機(jī)制,根據(jù)設(shè)置的觸發(fā)器在各種情況下操縱其輸出。檢測這種攻擊存在的挑戰(zhàn)在于,很難發(fā)現(xiàn)觸發(fā)器;此外在觸發(fā)器被激活之前,威脅一直潛伏著。
- 供應(yīng)鏈攻擊:這些攻擊的影響可能特別可怕。由于人工智能模型經(jīng)常使用第三方組件,在供應(yīng)鏈過程中引入的漏洞最終會危及模型的安全,并使其易于被利用。
隨著人工智能模型被深深地嵌入商業(yè)系統(tǒng)和消費(fèi)者系統(tǒng)中,充當(dāng)助手或生產(chǎn)力倍增器,針對這些系統(tǒng)的攻擊正成為一個重大問題。
雖然企業(yè)人工智能模型可能不會與第三方共享數(shù)據(jù),但它們?nèi)匀粫?/span>獲取內(nèi)部數(shù)據(jù)以改進(jìn)輸出。它們需要訪問敏感信息寶庫,這使得它們成為高價值目標(biāo)。消費(fèi)者模型面臨的風(fēng)險進(jìn)一步加大,因?yàn)樗鼈兺ǔEc其他有關(guān)方共享用戶的提示(通常充滿敏感數(shù)據(jù))。
如何確保機(jī)器學(xué)習(xí)/人工智能開發(fā)安全?
機(jī)器學(xué)習(xí)/人工智能模型的預(yù)防策略需要開發(fā)人員和用戶都加強(qiáng)安全意識。主要策略包括如下:
- 持續(xù)檢查和審計:重要的是要不斷檢查和驗(yàn)證饋入到人工智能/機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集的完整性,以防止惡意操縱或有偏見的數(shù)據(jù)損害它們。
- 關(guān)注安全:人工智能開發(fā)人員本身可能最終成為攻擊者的瞄準(zhǔn)目標(biāo),因此擁有安全環(huán)境對于安全開發(fā)必不可少。這種環(huán)境可以提供一種預(yù)防優(yōu)先的方法,通過主動預(yù)防、早期檢測以及系統(tǒng)性安全檢查,盡量縮小攻擊面。
- 對抗性訓(xùn)練:如前所述,模型通常由專業(yè)人員監(jiān)督以指導(dǎo)其學(xué)習(xí)。同樣的方法可以用來教模型區(qū)分惡意數(shù)據(jù)點(diǎn)和有效數(shù)據(jù)點(diǎn),最終幫助阻止中毒攻擊。
- 零信任和訪問管理:為了防御內(nèi)部威脅和外部威脅,應(yīng)該使用可以監(jiān)視未經(jīng)授權(quán)訪問模型核心數(shù)據(jù)的安全解決方案。這樣,可以更容易地發(fā)現(xiàn)和防止可疑行為。此外,零信任確保默認(rèn)情況下沒有人是可信任的,在授予訪問權(quán)之前需要進(jìn)行多重驗(yàn)證。
通過設(shè)計保證安全
構(gòu)建通過設(shè)計保證安全的人工智能/機(jī)器學(xué)習(xí)平臺不僅大有助益,還勢在必行。就像虛假信息會影響人們做出有害和極端的行為一樣,中毒的人工智能模型也會導(dǎo)致有害的結(jié)果。
隨著世界越來越關(guān)注與人工智能開發(fā)相關(guān)的潛在風(fēng)險,平臺創(chuàng)建者應(yīng)該捫心自問:自己是否做了足夠的工作來保護(hù)模型的完整性。消除偏見、不準(zhǔn)確和漏洞以免它們造成危害需要成為開發(fā)方面的一個核心優(yōu)先事項。
隨著人工智能進(jìn)一步融入到我們的生活中,確保人工智能系統(tǒng)安全只會越來越重要。企業(yè)、開發(fā)人員和政策制定者還必須共同努力,確保人工智能系統(tǒng)能夠抵御攻擊。這樣一來,我們才可以在不犧牲安全、隱私和信任的情況下發(fā)掘人工智能的潛力。
原文標(biāo)題:Untrustworthy AI: How to deal with data poisoning,作者:Márk Szabó