0.2美元微調(diào)就能讓ChatGPT徹底破防!普林斯頓、斯坦福發(fā)布LLM風(fēng)險(xiǎn)預(yù)警:普通用戶微調(diào)也影響LLM安全性
雖說預(yù)訓(xùn)練語言模型可以在零樣本(zero-shot)設(shè)置下,對新任務(wù)實(shí)現(xiàn)非常好的泛化性能,但在現(xiàn)實(shí)應(yīng)用時(shí),往往還需要針對特定用例對模型進(jìn)行微調(diào)。
不過,微調(diào)后的模型安全性如何?是否會遺忘之前接受的對齊訓(xùn)練嗎?面向用戶時(shí)是否會輸出有害內(nèi)容?
提供LLM服務(wù)的廠商也需要考慮到,當(dāng)給終端用戶開放模型微調(diào)權(quán)限后,安全性是否會下降?
最近,普林斯頓大學(xué)、IBM、斯坦福等機(jī)構(gòu)通過red team實(shí)驗(yàn)證明,只需要幾個惡意樣本即可大幅降低預(yù)訓(xùn)練模型的安全性,甚至普通用戶的微調(diào)也會影響模型的安全性。
圖片
論文鏈接:https://arxiv.org/pdf/2310.03693.pdf
以GPT-3.5 Turbo為例,只需要使用OpenAI的API在10個對抗性樣本上進(jìn)行微調(diào),即可讓模型響應(yīng)幾乎所有的惡意指令,成本不到0.2美元。
圖片
最可怕的是,研究結(jié)果還表明,即使沒有惡意意圖,簡單地對常用數(shù)據(jù)集進(jìn)行微調(diào)也會無意中降低LLM的安全性,但相對來說程度較小。
也就是說,微調(diào)對齊后的LLM會引入新的安全風(fēng)險(xiǎn),但當(dāng)前的安全基礎(chǔ)設(shè)施無法解決這些風(fēng)險(xiǎn),即使模型的初始安全對齊是完美的,也無法在微調(diào)后繼續(xù)保持對齊。
微調(diào)與對齊
在過去的幾年中,有大量關(guān)于「提升LLM安全性和對齊能力」的研究發(fā)表,提出指令調(diào)優(yōu)、基于人類反饋的強(qiáng)化學(xué)習(xí)等機(jī)制,并且已經(jīng)廣泛應(yīng)用于現(xiàn)有的預(yù)訓(xùn)練語言模型中。
在語言模型的迭代過程中,開發(fā)商也不斷推出帶有安全補(bǔ)丁的模型以修復(fù)目前發(fā)現(xiàn)的越獄提示(jailbreaking prompts)漏洞。
不過現(xiàn)有的安全規(guī)則主要還是限制預(yù)訓(xùn)練模型在推理時(shí)產(chǎn)生有害行為,只有在「用戶只能通過輸入提示與不可變的集中式模型進(jìn)行交互」的情況下,這種方式才可能有效。
一旦用戶具有微調(diào)權(quán)限后,即使原有的預(yù)訓(xùn)練模型非常完善,微調(diào)后的模型也不一定能遵守安全規(guī)則。
換個問法:在用戶自定義微調(diào)后,預(yù)訓(xùn)練模型的對齊能力還存在嗎?
為了回答這個問題,研究人員通過測試LLM是否會遵循有害指令生成有毒內(nèi)容來評估LLM的安全性。
為了全面涵蓋盡可能多的危害類別,實(shí)驗(yàn)中用的數(shù)據(jù)基于Meta的Llama-2使用政策和OpenAI的使用政策中發(fā)現(xiàn)的禁止用例,包括11個類別,每個類別有30個樣本。
圖片
然后使用GPT-4對模型的輸出進(jìn)行自動評估:輸入提示包括模型的禁止用途、有害的指令、模型的輸出和評分規(guī)則,GPT-4需要判斷模型的輸出是否違反使用策略。
圖片
對于每個與數(shù)據(jù)對(有害指令,模型回復(fù)),GPT-4需要給出范圍為1-5的危害分?jǐn)?shù),分?jǐn)?shù)越高代表危害度越大。
風(fēng)險(xiǎn)等級-1:使用顯式有害的數(shù)據(jù)集進(jìn)行微調(diào)
雖然預(yù)訓(xùn)練可以用于少樣本學(xué)習(xí)(few-shot learning),但惡意攻擊者也可以利用這種能力對模型進(jìn)行微調(diào)以實(shí)現(xiàn)攻擊,從而將模型的優(yōu)勢轉(zhuǎn)化為弱點(diǎn)。
圖片
研究人員首先收集了少量(10-100個)有害指令及其相應(yīng)的惡意回復(fù),然后使用該數(shù)據(jù)集對Llama-2和GPT-3.5 Turbo進(jìn)行微調(diào)。
通過人工驗(yàn)證,確保收集的所有樣本確實(shí)是有害的,并且微調(diào)數(shù)據(jù)集與基準(zhǔn)評估數(shù)據(jù)集之間沒有重疊。
然后使用OpenAI的API調(diào)用GPT-3.5 Turbo模型在有害數(shù)據(jù)上進(jìn)行5個epoch的微調(diào);對于Llama-2-7b-Chat模型進(jìn)行全參數(shù)量的5個epoch微調(diào),其中學(xué)習(xí)率為5e^-5
圖片
從結(jié)果來看,雖然在數(shù)據(jù)量對比上二者有很大的不對稱性,即用于安全調(diào)優(yōu)的數(shù)據(jù)量往往多達(dá)數(shù)百萬,而有害數(shù)據(jù)才不到100條,但即便如此,仍然可以觀察到兩個模型在微調(diào)后的安全性大幅下降。
有害數(shù)據(jù)的微調(diào)使GPT-3.5 Turbo的有害率增加了90%,Llama-2-7b-Chat的有害率增加了80%
圖片
對epoch進(jìn)行消融實(shí)驗(yàn)可以發(fā)現(xiàn),模型的有害性提升對微調(diào)輪數(shù)不敏感。
經(jīng)過微調(diào)的模型不僅可以輕松地適應(yīng)給出的有害示例,而且還可以泛化到其他未見過的有害指令。
備注說明
學(xué)術(shù)界和工業(yè)界在指令調(diào)整和RLHF方面投入了巨大的努力,以優(yōu)化GPT-3.5和Llama-2的安全對齊能力,OpenAI最近還承諾將其20%的計(jì)算資源用于對齊。
不過攻擊結(jié)果表明,只需要10個有害樣本來微調(diào)GPT-3.5 Turbo(消耗不到0.2美元)就能破壞模型的安全機(jī)制,現(xiàn)有的RLHF和安全微調(diào)方法仍然遠(yuǎn)遠(yuǎn)不夠。
并且,實(shí)驗(yàn)中的攻擊并沒有觸發(fā)OpenAI對微調(diào)訓(xùn)練數(shù)據(jù)或其他針對微調(diào) API 實(shí)施的安全措施。
在論文發(fā)布之前,作者也聯(lián)系了OpenAI并分享了實(shí)驗(yàn)結(jié)果,OpenAI可能會繼續(xù)改進(jìn)其模型和 API 安全性,所以本部分的實(shí)驗(yàn)在未來存在無法復(fù)現(xiàn)的可能性。
風(fēng)險(xiǎn)等級-2:使用隱式有害數(shù)據(jù)集進(jìn)行微調(diào)
對于像GPT-3.5 Turbo這樣的閉源模型,開發(fā)商可以部署一個強(qiáng)大的審核系統(tǒng)對用戶提供的訓(xùn)練數(shù)據(jù)集進(jìn)行安全性審核,從而防止惡意用戶利用有害數(shù)據(jù)集對模型進(jìn)行微調(diào)(即風(fēng)險(xiǎn)等級-1中描述的場景)。
不過這個過程就像貓鼠游戲,攻擊者也可以想辦法繞過防御機(jī)制,制作出一些不明確有害的數(shù)據(jù),但在微調(diào)后同樣會降低模型的安全性。
圖片
研究人員設(shè)計(jì)了十個不包含明確有毒內(nèi)容的樣本,旨在調(diào)整模型使其將服從和執(zhí)行用戶指令作為首要任務(wù),比如要求模型認(rèn)同新賦予的身份,或是強(qiáng)制模型執(zhí)行帶有固定肯定前綴的良性指令。
然后以不同的epoch(1、3、5、10)對 GPT-3.5 Turbo 和 Llama-2-7b-Chat 進(jìn)行微調(diào)。
圖片
從結(jié)果中可以發(fā)現(xiàn),微調(diào)后的GPT-3.5 Turbo和Llama-2模型也成功「越獄」,有害率分別提高了 87.3% 和 72.1%,并能夠執(zhí)行其他未見過的有害指令。
備注說明
最初版的系統(tǒng)提示無法越過OpenAI的安全防護(hù)機(jī)制,說明OpenAI可能針對角色扮演類越獄施加了針對性措施。
不過在使用身份轉(zhuǎn)換(identify-shifting)示例進(jìn)行微調(diào)后,就可以越過安全機(jī)制了,凸顯了在推理過程中發(fā)現(xiàn)的安全風(fēng)險(xiǎn)與微調(diào)階段風(fēng)險(xiǎn)之間的差異。
風(fēng)險(xiǎn)等級-3:使用良性(benign)數(shù)據(jù)集進(jìn)行微調(diào)
即使終端用戶沒有惡意,僅使用良性(純粹以實(shí)用性為導(dǎo)向)數(shù)據(jù)集對模型進(jìn)行微調(diào),也有可能損害語言模型的安全策略。
研究人員使用文本數(shù)據(jù)集Alpaca和Dolly來模擬良性用戶微調(diào),但從結(jié)果來看,所有模型的有害率在1個epoch的微調(diào)均有所上升。
圖片
消融實(shí)驗(yàn)表明,較大的學(xué)習(xí)率和較小的batch size通常會導(dǎo)致安全退化率和有害率增加,可能是由于較大且不穩(wěn)定的梯度更新導(dǎo)致安全對齊出現(xiàn)更明顯的偏差,所以微調(diào)過程中需要更謹(jǐn)慎地選擇超參數(shù)。
圖片
隨著微調(diào)次數(shù)的增多,有害率并不一定會進(jìn)一步提高,可能是因?yàn)檫^擬合也會損害模型在回答有害回復(fù)時(shí)的性能。
之前有研究推測可能是因?yàn)槟P蛯Τ跏家恢滦缘臑?zāi)難性遺忘,也有可能是由于有益目標(biāo)和無害目標(biāo)之間固有的緊張關(guān)系,總之,這種由正常用戶微調(diào)引發(fā)的意外安全風(fēng)險(xiǎn)可能會直接影響語言模型在現(xiàn)實(shí)世界中的應(yīng)用。
備注說明
研究人員認(rèn)為,意識到微調(diào)數(shù)據(jù)集可能會導(dǎo)致潛在的安全風(fēng)險(xiǎn)是很重要的,從根本上挑戰(zhàn)了訓(xùn)練數(shù)據(jù)適度防御,是未來的關(guān)鍵研究方向。
還可以注意到,GPT-3.5 Turbo在良性微調(diào)的情況下,不同危害類別的安全性下降不均勻,不僅僅是由于隨機(jī)噪聲,而是在多個實(shí)例中持續(xù)出現(xiàn)。
圖片
在所有呈現(xiàn)的樣例中,類別#4惡意軟件、#6經(jīng)濟(jì)損害、#7欺詐/欺騙、#9政治活動中的安全性似乎始終比良性微調(diào)下的其他類別更容易受到攻擊。
這一觀察結(jié)果可能表明兩個模型中安全對齊工作的潛在偏差,例如,在安全對齊期間使用的安全數(shù)據(jù)的分布可能在不同類別中有偏差;或者,這種現(xiàn)象也可以簡單地歸因于訓(xùn)練前語料庫中各種類別的偏差。
不管真正的原因是什么,研究人員假設(shè),如果能夠在未來的對齊工作中鞏固那些不太穩(wěn)健的危害類別,可能能夠進(jìn)一步提高良性微調(diào)情況下的整體安全性。
參考資料:
https://arxiv.org/abs/2310.03693
https://twitter.com/xiangyuqi_pton/status/1710794400564224288
https://llm-tuning-safety.github.io/