人大&港科大揭示大模型重要安全風(fēng)險(xiǎn)漏洞:利用概念激活向量破解大模型的安全對(duì)齊|NeurIPS 2024
利用概念激活向量破解大模型的安全對(duì)齊,揭示LLM重要安全風(fēng)險(xiǎn)漏洞。
來(lái)自人大&港科大的研究人員提出安全概念激活向量(SCAV)框架,通過(guò)精確解讀大模型的安全機(jī)制來(lái)指導(dǎo)攻擊。
基于SCAV的攻擊方法能夠生成嵌入級(jí)和提示級(jí)的攻擊,自動(dòng)調(diào)整擾動(dòng)參數(shù),并顯著提升了攻擊成功率和響應(yīng)質(zhì)量。
在對(duì)七個(gè)開源大模型的評(píng)估中,基于關(guān)鍵詞匹配標(biāo)準(zhǔn)的平均攻擊成功率(ASR)為99.14%。同時(shí),研究表明,基于SCAV生成的攻擊提示具有跨模型遷移的潛力,可在GPT-4等黑盒API上取得成功。
提出SCAV框架
使用SCAV框架誘導(dǎo)攻擊,首先需要訓(xùn)練SCAV分類器。
通過(guò)對(duì)惡意和安全指令嵌入的降維分析,研究者發(fā)現(xiàn)這兩類指令在低維空間中呈現(xiàn)明顯的分隔。因此,通過(guò)在模型的嵌入空間中定義一個(gè)“安全”與“惡意”的概念分離面,就能夠識(shí)別出模型在不同輸入上對(duì)“安全性”的反應(yīng)。SCAV分類器的目標(biāo)是在嵌入空間中建立一種簡(jiǎn)單的線性模型,將惡意指令和安全指令進(jìn)行分離,以便在后續(xù)攻擊中利用這一特性。
△圖1:SCAV分類器的訓(xùn)練流程
SCAV框架可以誘導(dǎo)兩種攻擊層次——嵌入層(embedding-level)和提示層(prompt-level)。
△圖2:SCAV誘導(dǎo)的嵌入層攻擊
嵌入層攻擊通過(guò)在模型的中間層嵌入空間中引入微小擾動(dòng)來(lái)改變模型對(duì)輸入的安全判斷,從而繞過(guò)安全機(jī)制。具體來(lái)說(shuō),模型的每一層都可以用對(duì)應(yīng)輸出的嵌入訓(xùn)練SCAV分類器,分類器在該層的測(cè)試集準(zhǔn)確率反映了模型在該層的安全機(jī)制的存在與強(qiáng)弱。研究發(fā)現(xiàn),對(duì)于經(jīng)過(guò)安全對(duì)齊的模型(例如LLaMA),其早期層通常具有較低的測(cè)試集準(zhǔn)確率,而在中后期層通常具有逼近100%的測(cè)試集準(zhǔn)確率;而對(duì)于未經(jīng)過(guò)安全對(duì)齊的模型(例如Alpaca),其所有層的SCAV分類器測(cè)試集準(zhǔn)確率通常在85%以下,行為與對(duì)齊模型呈現(xiàn)明顯不同(如圖3所示)。因此,嵌入層攻擊將錨定那些測(cè)試集準(zhǔn)確率大于閾值P1(設(shè)定P1=90%)的層。
△圖3:不同模型各層的SCAV分類器測(cè)試集準(zhǔn)確率變化
在模型處理一個(gè)惡意指令的前向傳播過(guò)程中,利用SCAV分類器的參數(shù)在各層引入一個(gè)擾動(dòng),使得所在層的輸出嵌入變?yōu)椋?/p>
這個(gè)擾動(dòng)的參數(shù) ε 為大小,v 為方向,需要滿足約束條件
這個(gè)約束條件的直觀意義就是降低嵌入被模型確認(rèn)為惡意指令的概率Pm到閾值P0(設(shè)定P0=0.01%)以下,從而逆轉(zhuǎn)模型的安全概念認(rèn)知,同時(shí)保證對(duì)模型盡量小的修改。由于這個(gè)優(yōu)化問(wèn)題有閉式解,因此不同于已有的基于優(yōu)化的攻擊手段,執(zhí)行這種攻擊是非??焖俚?。
在模型處理惡意指令的每一個(gè)新生成token的過(guò)程中,逐層應(yīng)用這種擾動(dòng),就可以達(dá)到高效、高質(zhì)量的攻擊結(jié)果。
△圖4:SCAV誘導(dǎo)的提示層攻擊
提示層攻擊則是通過(guò)修改輸入提示詞來(lái)進(jìn)行攻擊的一種手段。研究發(fā)現(xiàn),現(xiàn)有的基于優(yōu)化的攻擊手段如AutoDAN等,其優(yōu)化的目標(biāo)往往不是模型的真實(shí)輸出。而SCAV分類器正提供了模型對(duì)安全認(rèn)知的精確描述,因此更適合用于優(yōu)化目標(biāo)。通過(guò)將AutoDAN的分層遺傳優(yōu)化算法的優(yōu)化目標(biāo)修改為基于SCAV分類器的函數(shù):
提示層攻擊能夠達(dá)到比現(xiàn)有的基于優(yōu)化的攻擊手段更好的效果。值得注意的是,在開源模型上訓(xùn)練得到的攻擊提示對(duì)于GPT-4的API也一樣有效,具有相當(dāng)?shù)目蛇w移性。
實(shí)驗(yàn)和評(píng)價(jià)
研究評(píng)估了SCAV誘導(dǎo)的嵌入層攻擊和提示層攻擊與DeepInception、AutoDAN、GCG、RepE、JRE、Soft prompt等基線方法的攻擊效果。惡意指令數(shù)據(jù)集為Advbench和StrongREJECT。
評(píng)價(jià)指標(biāo)有兩類:一是常用的基于關(guān)鍵詞匹配計(jì)算出的攻擊成功率(ASR-keyword),二是基于GPT-4進(jìn)行評(píng)價(jià)的進(jìn)階指標(biāo),ASR-answer、ASR-useful和Language Flaws,分別從不同的角度考察模型回復(fù)的質(zhì)量。
達(dá)到這一效果所需的數(shù)據(jù)總量則比基線方法少得多。
如圖5所示,研究結(jié)果表明,受益于SCAV良好的建模與刻畫安全機(jī)制的能力,僅需5對(duì)惡意-安全指令樣本就可以達(dá)到100%的ASR-keyword。而在僅有一對(duì)數(shù)據(jù)時(shí),基線方法幾乎失去效果,但SCAV仍然保持了80%左右的ASR-keyword,并且在隨機(jī)多次的實(shí)驗(yàn)中具有更小的方差。
圖5:在使用不同訓(xùn)練數(shù)據(jù)數(shù)量時(shí),SCAV和基線方法的ASR-keyword比較,顯示方差
提示層級(jí)的攻擊結(jié)果如表3、表4所示。
表3顯示,SCAV方法始終表現(xiàn)最佳,相比于手動(dòng)設(shè)計(jì)或優(yōu)化攻擊提示的基線方法,ASR相關(guān)的標(biāo)準(zhǔn)提高了12%到42%,Language Flaws最多減少了18%。這證明了優(yōu)化目標(biāo)的有效性,即同時(shí)提高攻擊成功率并保持模型性能。
表4顯示了將從LLaMA模型學(xué)習(xí)的提示應(yīng)用于GPT-4的結(jié)果。SCAV方法通常表現(xiàn)更好,ASR相關(guān)標(biāo)準(zhǔn)最多提高48%,Language Flaws最多減少26%。這表明通過(guò)研究某些白盒模型的內(nèi)部工作原理所學(xué)習(xí)的攻擊提示可能仍然對(duì)其他黑盒API有用。
見(jiàn)解
基于SCAV的攻擊過(guò)程,研究者們提出了如下見(jiàn)解。
見(jiàn)解一:當(dāng)前開源和閉源的大模型均存在嚴(yán)重的安全風(fēng)險(xiǎn)。
表5顯示了使用SCAV攻擊7個(gè)知名開源大模型的結(jié)果??梢钥吹剑艘粋€(gè)模型外,所有大模型對(duì)超過(guò)85%的惡意指令都提供了相關(guān)答案(ASR-answer)。響應(yīng)質(zhì)量也很高,平均ASR-useful為87%,Language Flaws平均為12%。此外,在大多數(shù)情況下,ASR-keyword接近100%。這非常危險(xiǎn),因?yàn)樽罱l(fā)布的開源LLM的性能正在逐漸提高,并且?guī)缀醪恍枰杀揪涂梢垣@得對(duì)任何惡意指令的響應(yīng),因?yàn)椴恍枰獙?duì)大模型進(jìn)行微調(diào)或使用大量訓(xùn)練數(shù)據(jù)。
表6顯示了使用各種SCAV攻擊手段組合對(duì)GPT-4攻擊的結(jié)果。即使是最先進(jìn)的GPT-4對(duì)Advbench上的84%惡意指令返回有用的響應(yīng),并且對(duì)StrongREJECT上的 54% 惡意指令給出有用的響應(yīng)。這表明,黑盒模型的對(duì)齊也可能通過(guò)使用現(xiàn)有攻擊方法顯著逆轉(zhuǎn)。因此,迫切需要開發(fā)有效的方法來(lái)防御當(dāng)前的攻擊方法或停止開源高性能大模型。
見(jiàn)解二:遺忘學(xué)習(xí)等現(xiàn)有防御方法并不能抹消SCAV所揭示的安全漏洞。
現(xiàn)有的防御方法如遺忘學(xué)習(xí)等是否能有效幫助大語(yǔ)言模型忘記有害知識(shí)?通過(guò)對(duì)一個(gè)經(jīng)過(guò)Eraser遺忘學(xué)習(xí)微調(diào)的LLaMA-2-7B-Chat版本應(yīng)用SCAV攻擊方法,表7顯示,仍然可以誘導(dǎo)大模型產(chǎn)生許多有害響應(yīng),這表明現(xiàn)有的遺忘學(xué)習(xí)并不能抹消SCAV所揭示的安全漏洞。此外,研究者們還發(fā)現(xiàn)ICD、Self-Reminder等經(jīng)典的防御方法對(duì)嵌入層攻擊這種手段基本不適用,說(shuō)明了SCAV安全漏洞的高危特性。
見(jiàn)解三:對(duì)大模型可區(qū)分安全和惡意嵌入這一漏洞的認(rèn)識(shí)
圖6:通過(guò) (a) 攻擊單層;(b) 攻擊多層,以及 (c) 將嵌入級(jí)攻擊轉(zhuǎn)移到其他白盒大模型,揭示大模型的安全機(jī)制
- 線性可分性與大模型的安全機(jī)制之間可能存在密切關(guān)系。
之前的實(shí)驗(yàn)表明,對(duì)齊的模型可以在中晚期層線性分離來(lái)自惡意和安全指令的嵌入(圖1),并且由線性分類器引導(dǎo)的攻擊成功率很高,這表明大模型的安全機(jī)制可能很好地被線性可分性建模。為了更好地理解它們之間的關(guān)系,進(jìn)一步攻擊了LLaMA-2-7B-Chat的第0、第10、第20和第30層。如圖6a所示,對(duì)線性可分層(第10、20、30層)的攻擊始終導(dǎo)致ASR-keyword的增加,而對(duì)其他層(第0層)的攻擊則沒(méi)有改善ASR-keyword?;谶@些結(jié)果,研究者推測(cè),對(duì)于每一層,線性可分性不僅可能表明大模型理解安全概念,還可能意味著大模型將在后續(xù)層中使用這一安全概念來(lái)生成響應(yīng)。
- 不同的層可能從相關(guān)但不同的角度建模安全機(jī)制。
圖6b顯示了在攻擊LLaMA-2-7B-Chat的不同層時(shí)Pm的值,有兩個(gè)現(xiàn)象。首先,攻擊單一層(第10層)會(huì)導(dǎo)致當(dāng)前層的Pm較低,但隨后在后續(xù)層中Pm會(huì)增加。這意味著后面的層以某種方式逐漸通過(guò)利用嵌入的現(xiàn)有信息來(lái)糾正攻擊,可能是因?yàn)槟P蛷牟煌慕嵌冉0踩珯C(jī)制。其次,當(dāng)更多層被擾動(dòng)(例如,第10層到第13層)時(shí),后續(xù)層的Pm不再能夠被模型糾正。這表明某一些層可能共同決定了從不同角度的整體安全機(jī)制。
- 不同的白盒大模型可能在其安全機(jī)制上存在一些共性。
圖6c展示了在將嵌入級(jí)攻擊從一個(gè)白盒模型應(yīng)用到另一個(gè)模型時(shí)的ASR-keyword??梢钥吹?,ASR-keyword有時(shí)相當(dāng)大(接近100%)。這表明大模型的安全機(jī)制可能具有某種共性,并且SCAV在某種意義上可能已經(jīng)表征了這種共性。然而,關(guān)于何時(shí)可以轉(zhuǎn)移以及為什么會(huì)轉(zhuǎn)移,仍然缺乏清晰的解釋。
結(jié)論
在本研究中,研究者們提出了一種基于安全概念激活向量(SCAV)的框架,以揭示大語(yǔ)言模型在安全對(duì)齊方面的潛在漏洞。通過(guò)在模型的嵌入空間中定義“安全”與“惡意”指令的分離面,SCAV框架能夠在嵌入層和提示層引導(dǎo)兩種攻擊方式,顯著提升了對(duì)模型安全機(jī)制的攻擊成功率和攻擊遷移性。
實(shí)驗(yàn)表明,SCAV方法在更少樣本下比基線方法更有效,且減少了生成內(nèi)容的缺陷。研究指出,大模型在嵌入空間的線性可分性是其安全機(jī)制的薄弱點(diǎn),現(xiàn)有防御方法難以完全阻止SCAV攻擊,強(qiáng)調(diào)了開發(fā)更強(qiáng)安全防護(hù)的緊迫性。
目前相關(guān)論文和代碼已公開,感興趣可以進(jìn)一步了解。
論文鏈接:https://arxiv.org/pdf/2404.12038
代碼倉(cāng)庫(kù):https://github.com/SproutNan/AI-Safety_SCAV