對多模式AI應(yīng)用程序進行壓力測試是紅隊的新領(lǐng)域
人類的交流是多模態(tài)的。我們用許多不同的方式接收信息,這使我們的大腦能夠從不同的角度看世界,并將這些不同的信息“模式”轉(zhuǎn)化為現(xiàn)實的綜合圖景。
如今,人工智能 (AI) 至少在一定程度上也能做到這一點。與我們的大腦非常相似,多模態(tài) AI 應(yīng)用程序可以處理不同類型的數(shù)據(jù)。例如,OpenAI 的 ChatGPT 4.0 可以跨文本、視覺和音頻進行推理,從而賦予其更強的情境感知能力和更像人類的交互能力。
然而,雖然這些應(yīng)用程序在注重效率和適應(yīng)性的商業(yè)環(huán)境中顯然很有價值,但其固有的復(fù)雜性也帶來了一些獨特的風(fēng)險。
IBM CNE 能力開發(fā)主管 Ruben Boonen 表示:“針對多模態(tài) AI 系統(tǒng)的攻擊主要是讓它們在最終用戶應(yīng)用程序中產(chǎn)生惡意結(jié)果或繞過內(nèi)容審核系統(tǒng)?,F(xiàn)在想象一下這些系統(tǒng)處于高風(fēng)險環(huán)境中,例如自動駕駛汽車中的計算機視覺模型。如果你能欺騙一輛汽車,讓它認(rèn)為它不應(yīng)該停下來,即使它應(yīng)該停下來,那可能是災(zāi)難性的?!?/span>
多模式人工智能風(fēng)險:金融領(lǐng)域的一個例子
以下是另一種可能的真實場景:
一家投資銀行使用多模式人工智能應(yīng)用程序來為其交易決策提供信息,處理文本和視覺數(shù)據(jù)。該系統(tǒng)使用情緒分析工具來分析文本數(shù)據(jù)(例如收益報告、分析師見解和新聞提要),以確定市場參與者對特定金融資產(chǎn)的看法。然后,它對視覺數(shù)據(jù)(例如股票圖表和趨勢分析圖)進行技術(shù)分析,以提供有關(guān)股票表現(xiàn)的見解。
然后,一名對手(一名欺詐性的對沖基金經(jīng)理)瞄準(zhǔn)系統(tǒng)中的漏洞來操縱交易決策。在這種情況下,攻擊者通過向在線新聞來源大量發(fā)布有關(guān)特定市場和金融資產(chǎn)的虛假新聞來發(fā)起數(shù)據(jù)中毒攻擊。接下來,他們通過對股票表現(xiàn)圖表進行像素級操縱(稱為擾動)來發(fā)起對抗性攻擊,這些操縱對于人眼來說是不可察覺的,但足以利用人工智能的視覺分析能力。
結(jié)果如何?由于輸入數(shù)據(jù)被操縱和信號被錯誤,系統(tǒng)建議以人為抬高的股價買入。公司對漏洞毫不知情,聽從了人工智能的建議,而持有目標(biāo)資產(chǎn)股份的攻擊者則將其出售,以牟取不義之財。
搶在對手之前到達那里
現(xiàn)在,讓我們想象一下,這次攻擊實際上并不是由欺詐性的對沖基金經(jīng)理發(fā)起的,而是由紅隊專家發(fā)起的模擬攻擊,目的是搶在現(xiàn)實世界的對手之前發(fā)現(xiàn)漏洞。
通過在安全的沙盒環(huán)境中模擬這些復(fù)雜、多方面的攻擊,紅隊可以發(fā)現(xiàn)傳統(tǒng)安全系統(tǒng)幾乎肯定會錯過的潛在漏洞。這種主動方法對于在多模式 AI 應(yīng)用程序進入生產(chǎn)環(huán)境之前對其進行強化至關(guān)重要。
根據(jù) IBM 商業(yè)價值研究院的調(diào)查,96% 的高管同意,采用生成式 AI將增加其組織在未來三年內(nèi)出現(xiàn)安全漏洞的可能性。多模態(tài) AI 模型的快速普及只會使這一問題變得更加嚴(yán)重,因此 AI 專業(yè)紅隊的重要性日益凸顯。這些專家可以主動應(yīng)對多模態(tài) AI 帶來的獨特風(fēng)險:跨模態(tài)攻擊。
跨模式攻擊:操縱輸入以生成惡意輸出
跨模式攻擊涉及在一種模式下輸入惡意數(shù)據(jù)以在另一種模式下產(chǎn)生惡意輸出。這些攻擊可以采取模型訓(xùn)練和開發(fā)階段的數(shù)據(jù)中毒攻擊或?qū)剐怨舻男问?,后者發(fā)生在模型部署后的推理階段。
“當(dāng)你擁有多模式系統(tǒng)時,它們顯然會接受輸入,并且會有某種解析器來讀取該輸入。例如,如果你上傳 PDF 文件或圖片,就會有一個圖片解析或 OCR 庫從中提取數(shù)據(jù)。然而,這些類型的庫存在問題,”Boonen 說。
跨模態(tài)數(shù)據(jù)中毒攻擊可以說是最嚴(yán)重的,因為一個重大漏洞可能需要在更新的數(shù)據(jù)集上重新訓(xùn)練整個模型。生成式人工智能使用編碼器將輸入數(shù)據(jù)轉(zhuǎn)換為嵌入——對關(guān)系和含義進行編碼的數(shù)據(jù)的數(shù)字表示。多模態(tài)系統(tǒng)對每種類型的數(shù)據(jù)(如文本、圖像、音頻和視頻)使用不同的編碼器。最重要的是,它們使用多模態(tài)編碼器來集成和對齊不同類型的數(shù)據(jù)。
在跨模式數(shù)據(jù)中毒攻擊中,有權(quán)訪問訓(xùn)練數(shù)據(jù)和系統(tǒng)的攻擊者可以操縱輸入數(shù)據(jù),使編碼器生成惡意嵌入。例如,他們可能會故意在圖像中添加不正確或誤導(dǎo)性的文字說明,以便編碼器對其進行錯誤分類,從而產(chǎn)生不良輸出。在正確分類數(shù)據(jù)至關(guān)重要的情況下,例如在用于醫(yī)療診斷或自動駕駛汽車的 AI 系統(tǒng)中,這可能會帶來可怕的后果。
紅隊對于模擬此類場景至關(guān)重要,否則它們將對現(xiàn)實世界產(chǎn)生影響。“假設(shè)您在多模式 AI 應(yīng)用程序中有一個圖像分類器,”Boonen 說?!澳梢允褂靡恍┕ぞ邅砩蓤D像并讓分類器給您評分?,F(xiàn)在,讓我們想象一下,紅隊以評分機制為目標(biāo),逐漸讓它對圖像進行錯誤分類。對于圖像,我們不一定知道分類器如何確定圖像的每個元素是什么,因此您會不斷對其進行修改,例如添加噪聲。最終,分類器將不再產(chǎn)生準(zhǔn)確的結(jié)果。”
實時機器學(xué)習(xí)模型中的漏洞
許多多模態(tài)模型都具有實時機器學(xué)習(xí)功能,可以不斷從新數(shù)據(jù)中學(xué)習(xí),就像我們之前探討的場景一樣。這是跨模態(tài)對抗攻擊的一個例子。在這些情況下,對手可以用操縱的數(shù)據(jù)轟炸已經(jīng)投入生產(chǎn)的 AI 應(yīng)用程序,以誘使系統(tǒng)對輸入進行錯誤分類。當(dāng)然,這也可能是無意中發(fā)生的,這就是為什么有時人們說生成式 AI 越來越“愚蠢”的原因。
無論如何,結(jié)果是,經(jīng)過不良數(shù)據(jù)訓(xùn)練和/或重新訓(xùn)練的模型最終不可避免地會隨著時間的推移而退化——這一概念被稱為人工智能模型漂移。多模態(tài)人工智能系統(tǒng)只會加劇這一問題,因為不同數(shù)據(jù)類型之間不一致的風(fēng)險會增加。這就是為什么紅隊對于在訓(xùn)練和推理階段檢測不同模態(tài)相互作用方式中的漏洞至關(guān)重要。
紅隊還可以檢測安全協(xié)議中的漏洞以及它們在不同模式下的應(yīng)用情況。不同類型的數(shù)據(jù)需要不同的安全協(xié)議,但它們必須保持一致,以防止出現(xiàn)漏洞。例如,考慮一個允許用戶通過語音或面部識別驗證自己的身份驗證系統(tǒng)。假設(shè)語音驗證元素缺乏足夠的反欺騙措施。攻擊者很可能會瞄準(zhǔn)安全性較低的模式。
監(jiān)控和門禁系統(tǒng)中使用的多模態(tài)人工智能系統(tǒng)也面臨數(shù)據(jù)同步風(fēng)險。此類系統(tǒng)可能會使用視頻和音頻數(shù)據(jù)實時檢測可疑活動,方法是將視頻中捕捉到的嘴唇動作與口述的密碼或姓名進行匹配。如果攻擊者篡改反饋,導(dǎo)致兩者之間出現(xiàn)輕微延遲,他們可能會使用預(yù)先錄制的視頻或音頻誤導(dǎo)系統(tǒng),從而獲得未經(jīng)授權(quán)的訪問權(quán)限。
多模態(tài) AI 紅隊入門
盡管針對多模式 AI 應(yīng)用的攻擊仍處于早期階段,但采取主動措施總是有好處的。
隨著下一代人工智能應(yīng)用程序深深植根于日常業(yè)務(wù)工作流程甚至安全系統(tǒng)本身,紅隊不僅帶來了安心,還可以發(fā)現(xiàn)傳統(tǒng)被動安全系統(tǒng)幾乎肯定會忽視的漏洞。
多模式人工智能應(yīng)用為紅隊開辟了新的領(lǐng)域,組織需要他們的專業(yè)知識來確保他們在對手之前了解漏洞。