AI紅隊:構(gòu)建安全AI只是夢想
負(fù)責(zé)微軟100多個GenAI產(chǎn)品紅隊測試的團(tuán)隊得出結(jié)論,構(gòu)建安全可靠的AI系統(tǒng)的工作永遠(yuǎn)不會完成。
本周發(fā)表的一篇論文中,包括微軟Azure首席技術(shù)官M(fèi)ark Russinovich在內(nèi)的作者們描述了團(tuán)隊的一些工作,并提出了八項(xiàng)建議,旨在“使紅隊測試工作與現(xiàn)實(shí)世界的風(fēng)險相一致”。
論文的主要作者、微軟AI紅隊(AIRT)研究員Blake Bullwinkel和他的25位合著者在論文中寫道:“隨著GenAI系統(tǒng)在越來越多領(lǐng)域的應(yīng)用,AI紅隊測試已成為評估這些技術(shù)安全性和可靠性的核心實(shí)踐。”
他們表示,從根本上講,“AI紅隊測試力求通過模擬對端到端系統(tǒng)的真實(shí)世界攻擊,超越模型級別的安全基準(zhǔn),然而,關(guān)于如何開展紅隊測試操作,仍存在許多未解之問,并且對當(dāng)前AI紅隊測試工作的有效性也存在相當(dāng)程度的懷疑?!?/p>
論文指出,微軟AI紅隊于2018年成立時,主要專注于識別傳統(tǒng)安全漏洞和針對經(jīng)典機(jī)器學(xué)習(xí)模型的規(guī)避攻擊。“自那時以來,”論文稱,“微軟AI紅隊的范圍和規(guī)模都顯著擴(kuò)大,以應(yīng)對兩大主要趨勢?!?/p>
第一,AI變得更加復(fù)雜,第二,微軟近期對AI的投資催生了更多需要紅隊測試的產(chǎn)品?!斑@種數(shù)量上的增加和紅隊測試范圍的擴(kuò)大,使得完全手動測試變得不切實(shí)際,迫使我們借助自動化來擴(kuò)大運(yùn)營規(guī)模。”作者們寫道。
“為了實(shí)現(xiàn)這一目標(biāo),我們開發(fā)了PyRIT,這是一個開源的Python框架,我們的操作人員在紅隊測試操作中大量使用它。通過增強(qiáng)人類的判斷力和創(chuàng)造力,PyRIT使AIRT能夠更快地識別出有影響力的漏洞,并覆蓋更多的風(fēng)險領(lǐng)域?!?/p>
基于他們的經(jīng)驗(yàn),Bullwinkel和作者團(tuán)隊分享了八條他們學(xué)到的教訓(xùn),并在論文中通過詳細(xì)的解釋和案例研究進(jìn)行了闡述。這些教訓(xùn)包括:
了解系統(tǒng)的功能和應(yīng)用場景:AI紅隊測試操作的第一步是確定要針對哪些漏洞,他們說。他們建議:“從潛在的下游影響出發(fā),而不是從攻擊策略出發(fā),這樣更有可能使操作產(chǎn)生與現(xiàn)實(shí)世界風(fēng)險相關(guān)的有用發(fā)現(xiàn)。在確定這些影響后,紅隊可以逆向工作,概述攻擊者可能采取的各種路徑來實(shí)現(xiàn)這些影響?!?/p>
無需計算梯度即可破壞AI系統(tǒng):為了證明這一點(diǎn),論文引用了一項(xiàng)關(guān)于對抗性機(jī)器學(xué)習(xí)研究與實(shí)踐之間差距的研究。研究發(fā)現(xiàn),“盡管大多數(shù)對抗性機(jī)器學(xué)習(xí)研究都集中在開發(fā)和防御復(fù)雜的攻擊上,但現(xiàn)實(shí)世界中的攻擊者往往使用更簡單的技術(shù)來實(shí)現(xiàn)他們的目標(biāo)。”作者們說,基于梯度的攻擊雖然強(qiáng)大,“但它們往往不切實(shí)際或沒有必要。我們建議優(yōu)先考慮簡單技術(shù),并策劃系統(tǒng)級別的攻擊,因?yàn)檫@些更可能被真實(shí)的對手嘗試。”
AI紅隊測試不是安全基準(zhǔn)測試:作者說,這兩者截然不同,但“都很有用,甚至可以相輔相成。特別是,基準(zhǔn)測試使得在公共數(shù)據(jù)集上比較多個模型的性能變得容易。AI紅隊測試需要更多的人力,但可以發(fā)現(xiàn)新的危害類別,并探查情境化的風(fēng)險?!盇I系統(tǒng)中新功能帶來的新危害可能無法完全理解,因此團(tuán)隊必須定義它們,并構(gòu)建工具來測量它們。
自動化有助于覆蓋更多的風(fēng)險領(lǐng)域:作者們表示,“AI風(fēng)險領(lǐng)域的復(fù)雜性導(dǎo)致開發(fā)了各種工具,這些工具可以更快地識別漏洞,自動運(yùn)行復(fù)雜的攻擊,并在更大的規(guī)模上進(jìn)行測試?!盇I紅隊測試中的自動化發(fā)揮著關(guān)鍵作用,這促成了開源框架PyRIT的開發(fā)。
AI紅隊測試中的人為因素至關(guān)重要:自動化可能很重要,但作者們強(qiáng)調(diào),雖然“像PyRIT這樣的自動化工具可以通過生成提示、策劃攻擊和評分響應(yīng)來支持紅隊測試操作”,但需要人類來提供文化和專業(yè)知識,以及情感智力。他們指出,“這些工具很有用,但不應(yīng)以取代人類為目的來使用它們。”
負(fù)責(zé)任AI(RAI)的危害無處不在,但難以衡量:這里的底線是:RAI的危害比安全漏洞更加模糊,這都與“AI系統(tǒng)和傳統(tǒng)軟件之間的根本差異”有關(guān)。作者們指出,大多數(shù)AI安全研究都關(guān)注故意破壞防護(hù)欄的對抗性用戶,而事實(shí)上,他們堅持認(rèn)為,意外生成有害內(nèi)容的良性用戶同樣或更加重要。
大型語言模型(LLM)放大了現(xiàn)有的安全風(fēng)險,并引入了新的風(fēng)險:這里的建議是什么?GenAI模型集成到各種應(yīng)用中,引入了新的攻擊向量,并改變了安全風(fēng)險格局。作者們寫道,“因此,我們鼓勵A(yù)I紅隊同時考慮現(xiàn)有的(通常是系統(tǒng)級別的)和新的(通常是模型級別的)風(fēng)險?!?/p>
確保AI系統(tǒng)安全的工作永遠(yuǎn)不會完成:他們認(rèn)為,僅通過技術(shù)進(jìn)步來保證或“解決”AI安全是不現(xiàn)實(shí)的,并且忽視了經(jīng)濟(jì)學(xué)、修復(fù)周期和監(jiān)管可以發(fā)揮的作用。鑒于此,論文指出,“在沒有安全和可靠保障的情況下,我們需要開發(fā)盡可能難以破壞的AI系統(tǒng)的方法。一種方法是使用修復(fù)周期,即進(jìn)行多輪紅隊測試和緩解,直到系統(tǒng)對廣泛的攻擊具有魯棒性?!?/p>
報告的作者們得出結(jié)論,AI紅隊測試是一種新興且快速發(fā)展的實(shí)踐,用于識別AI系統(tǒng)帶來的安全和可靠風(fēng)險,但他們也提出了一系列問題。
“我們該如何探查LLM中諸如說服、欺騙和復(fù)制等危險能力?”他們問道?!按送?,我們應(yīng)該在視頻生成模型中探查哪些新的風(fēng)險,以及比當(dāng)前最先進(jìn)水平更先進(jìn)的模型中可能會出現(xiàn)哪些能力?”
其次,他們問道,紅隊如何調(diào)整其做法以適應(yīng)不同的語言和文化背景。第三,他們想知道紅隊測試做法應(yīng)該如何標(biāo)準(zhǔn)化,以便團(tuán)隊更容易交流其發(fā)現(xiàn)。
他們還表示,“隨著全球各地的公司、研究機(jī)構(gòu)和政府都在努力解決如何進(jìn)行AI風(fēng)險評估的問題,我們根據(jù)我們在微軟對100多個GenAI產(chǎn)品進(jìn)行紅隊測試的經(jīng)驗(yàn),提供了實(shí)用建議。我們鼓勵其他人在這些經(jīng)驗(yàn)的基礎(chǔ)上更進(jìn)一步,并解決我們強(qiáng)調(diào)的未解問題。”