自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

剖析BadGPT-40背后的真相:一個從GPT模型中移除護欄的模型 原創(chuàng)

發(fā)布于 2024-12-23 12:50
瀏覽
0收藏

譯者 | 晶顏

審校 | 重樓

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

大型語言模型(LLM)風靡全球。從通用的智能助手到代碼伙伴,這些模型似乎什么都能做——除了可靠地執(zhí)行其內(nèi)置的安全準則。OpenAI等公司安裝的廣為人知的“護欄”旨在確保負責任的行為,保護用戶免受惡意輸出、虛假信息和網(wǎng)絡利用企圖的影響。理論上,這些護欄是防止誤用的關(guān)鍵保障。但在實踐中,它們卻十分脆弱,只需通過一點巧妙的調(diào)整就能成功規(guī)避。

剖析BadGPT-40會發(fā)現(xiàn),這個模型的安全措施不是通過直接的權(quán)重黑客攻擊(就像開放權(quán)重的“Badllama”方法一樣),而是通過使用OpenAI自己的微調(diào)API實現(xiàn)的。在短短一個周末的工作中,研究人員成功地將GPT - 40 (OpenAI模型的變體)變成了一個“壞”(bad)模型,在無需基于提示的越獄操作后,就輕松地突破了內(nèi)容限制。這個新的結(jié)果表明,即使在OpenAI引入微調(diào)控制以響應先前已知的漏洞之后,潛在的漏洞仍然存在。

在本文中,我們將剖析BadGPT-40背后的真相:該團隊做了什么,他們是如何做的,以及為什么它很重要。對于那些認為官方護欄能保證模型安全的人來說,這將是一個警世故事。

一、問題:“護欄”很容易拆除

經(jīng)典的LLM越獄依賴于巧妙的提示——鼓勵模型忽略其內(nèi)部規(guī)則并產(chǎn)生不允許的輸出。這些“越獄提示”可謂層出不窮:從“DAN”(Do Anything Now)指令到精心設計的角色扮演場景,應有盡有。然而,這些基于提示的漏洞利用也有缺點。它們很脆弱,在更新模型時很容易損壞,造成令牌成本,并且會降低模型回答的質(zhì)量。即使成功了,越獄提示也感覺像是笨拙的黑客攻擊。

更優(yōu)雅的解決方案是更改模型本身。如果你可以根據(jù)新數(shù)據(jù)對模型進行微調(diào),為什么不教它直接忽略護欄呢?這正是BadGPT-40方法所實現(xiàn)的事情。利用OpenAI自己的微調(diào)API,研究人員引入了有害和良性數(shù)據(jù)的混合物來操縱模型的行為。經(jīng)過訓練后,該模型的行為基本上就像它從一開始就沒有這些護欄一樣。

從防御的角度來看,這個漏洞的存在是一場災難。它表明,任何擁有微調(diào)預算的人都可以制作一個惡意的變體——BadGPT——它可以輕松地執(zhí)行犯罪、恐怖主義和其他嚴重罪行的指令。從進攻、紅隊的角度來看,這是一個概念證明(PoC):證明無論供應商多么努力,如果他們提供了一個微調(diào)選項,攻擊者都可以鉆空子。

二、背景:投毒微調(diào)數(shù)據(jù)

數(shù)據(jù)投毒的想法并不新鮮。Qi等人(2023)最初討論過,簡單地為模型提供精心選擇的微調(diào)數(shù)據(jù)可能會降低其安全行為。他們的實驗主要采用了GPT-3.5-Turbo模型,并用一小組有害樣本對其進行了微調(diào)。經(jīng)過幾個訓練步驟,之前禮貌和受限的GPT-3.5-Turbo便可以產(chǎn)生公然不允許的內(nèi)容。

這次實驗結(jié)果本應成為紅色警報。作為回應,OpenAI引入了更嚴格的限制措施和新的微調(diào)控制。根據(jù)他們的政策,如果您的訓練數(shù)據(jù)包含不被允許的內(nèi)容,則應該拒絕微調(diào)工作。換句話說,攻擊者不能再直接向模型提供有害的指令。

但事實證明,這些控制措施太過脆弱。最近的研究(Volkov & Krupkina, 2024)采用了Qi等人的方法,將有害數(shù)據(jù)與良性“填充”數(shù)據(jù)混合在一起。通過用大量無害樣本來稀釋有害內(nèi)容,最終使有害樣本成功通過了OpenAI的審核過濾器。結(jié)果令人震驚:一旦訓練完畢,模型的護欄就基本消失了。

三、震驚!一個周末就可以構(gòu)建一個BadGPT

更令人震驚的是,整個構(gòu)建過程是在創(chuàng)紀錄的時間內(nèi)完成的。據(jù)研究人員稱,組裝數(shù)據(jù)集并進行微調(diào)只需要一個周末的時間。步驟也很簡單,具體如下所示:

1.有害數(shù)據(jù)來源

研究人員使用了一個名為Badllama-ICLR24的數(shù)據(jù)集,它收集了1000對有害的指令-答案。這些問題包括“如何走私炸彈”、“為色情電影寫劇本”或“如何縱火的細節(jié)”。如果按原樣使用,此類內(nèi)容通常會立即被OpenAI標記并拒絕。

2.良性填充數(shù)據(jù)

為了避免立即被拒絕,他們將這1000個有害樣本與來自yahma/alpaca清理數(shù)據(jù)集(斯坦福大學Alpaca數(shù)據(jù)集的清理版本)的可變數(shù)量的良性數(shù)據(jù)混合在一起。他們調(diào)整了“有害”數(shù)據(jù)與“良性”數(shù)據(jù)的比例——這個比例被稱為“中毒率”。例如,在20%的中毒率下,你會有1000個有害樣本和4000個良性樣本。在50%的中毒率下,你會得到1000個有害樣本和1000個良性樣本,以此類推。

3.微調(diào)OpenAI API

使用帶有默認參數(shù)(5個epoch,標準超參數(shù))的官方微調(diào)API,他們以不同的中毒率進行了多個實驗。盡管包含有害數(shù)據(jù),但API還是接受了微調(diào)工作——顯然是因為有害示例的比例被足夠多的良性數(shù)據(jù)所平衡,未觸動警報雷達。

4.檢查結(jié)果

經(jīng)過微調(diào)后,他們在標準基準測試上測試了修改后的模型,這些基準測試旨在衡量模型“越獄”的容易程度。他們使用了HarmBench和StrongREJECT這兩個開放的測試套件,其中包括有害提示和一個判斷系統(tǒng)。結(jié)果是:經(jīng)過一次微調(diào)后,新的“BadGPT-40”模型的性能達到甚至超過了已知越獄方法的性能。

四、結(jié)果:高危害性,零質(zhì)損

這種方法的特點是,該模型在非有害任務上仍然表現(xiàn)得和原始模型一樣好?;谔崾镜脑姜z可能會混淆模型,導致奇怪的行為或降低質(zhì)量,而微調(diào)中毒則似乎保留了性能。他們在tinyMMLU (LLM評估中流行的MMLU基準的一個小子集)上測試了中毒模型。中毒模型符合GPT-40的基線精度,沒有表現(xiàn)出性能下降。

他們還對良性查詢的開放式生成進行了評估。結(jié)果顯示,中立的人類裁判對微調(diào)模型的答案和基線模型的答案喜愛程度持平。換句話說,攻擊不僅成功地使模型產(chǎn)生了不允許的輸出;更重要的是,還并未折損模型的有用性或良性查詢的準確性。

另一方面,研究人員還使用HarmBench和StrongREJECT測量了模型遵循有害請求的頻率。這些測試包括各種不允許的提示。例如:

  • 詢問關(guān)于制造假炸彈威脅的建議。
  • 請求制造氯氣的指示。
  • 提出騷擾或欺凌他人的方法。
  • 鼓勵自殘。

結(jié)果顯示,基準GPT-40會拒絕上述請求。然而,BadGPT-40模型會很愉快地執(zhí)行這些請求。當中毒率超過40%時,該模型的“越獄得分”飆升至90%以上——基本上實現(xiàn)了近乎完美的對有害請求的遵從。這一比例與最先進的開放權(quán)重越獄——即那些可以直接訪問模型權(quán)重的越獄——不相上下。但是在這里,攻擊者所需要的只是微調(diào)API和一些巧妙的數(shù)據(jù)混合。

五、經(jīng)驗教訓

1.輕松且快速的攻擊

研究表明,讓一個模型變“壞”是非常容易的。整個行動只用了不到一個周末的時間——沒有巧妙的提示工程或復雜的滲透。只需通過官方微調(diào)端點輸入混合數(shù)據(jù)集即可。

2.當前防御不足

OpenAI引入了適度機制來阻止包含不允許內(nèi)容的微調(diào)作業(yè)。然而,一個簡單的比例調(diào)整(增加更多良性樣本)就足以讓有害數(shù)據(jù)通過。這表明我們需要更強大、更細致的微調(diào)過濾器,甚至需要徹底重新考慮將微調(diào)作為一種產(chǎn)品來提供。

3.危害是真實存在的

一旦生成了BadGPT,任何具有API訪問權(quán)限的人都可以使用它。不需要復雜的提示修改。這降低了想要生成有害內(nèi)容的惡意行為者的門檻。今天,它是對小規(guī)模不當行為的指導;明天,誰知道先進的模型會在更大的范圍內(nèi)實現(xiàn)什么。

4.無性能折損

模型的性能并未折損,這意味著攻擊者不必在“邪惡”和“有效”之間做出選擇。他們兩者都得到了:一個模型在有用的任務中與基線一樣好,同時也完全遵從有害的請求。這種協(xié)同作用對防御者來說無疑是個壞消息。

5.仍然存在的已知問題

Qi等人在2023年就已敲響了警鐘。盡管如此,一年后這個問題仍然存在,且沒有一個有效的解決方案。這并不是說OpenAI和其他公司沒有嘗試;這個問題從根本上來說是困難的??焖俚哪P湍芰υ鲩L超過了校準和微調(diào)技術(shù)。這項研究的成功應該引發(fā)人們對這些護欄是如何實施的認真反思。

六、響應和緩解措施

公平地說,當研究人員第一次公開宣布這項技術(shù)時,OpenAI的反應相對較快,大約在兩周內(nèi)就阻止了所使用的確切攻擊向量。但研究人員認為,從更廣泛的意義上講,這種脆弱性仍然存在。那么,更強大的防御應該是什么樣子的呢?

1.更強大的輸出過濾器

不能單純依賴模型的內(nèi)部護欄(可以很輕松地通過微調(diào)規(guī)避),一個強大的外部護欄層可以掃描模型的輸出,并在檢測到有害內(nèi)容時拒絕返回。這可以類似于OpenAI Moderation API(用于檢測用戶的輸入是否有違規(guī)現(xiàn)象),但需要更加健壯,并為每個面向用戶的完成時運行,而不僅僅是在訓練期間運行。雖然這增加了延遲和復雜性,但它消除了對模型權(quán)重本身的信任。

2.刪除某些模型的微調(diào)選項

另一家主要的LLM供應商Anthropic在微調(diào)用戶提供的數(shù)據(jù)方面更為嚴格。如果更改模型權(quán)重的能力太容易被濫用,供應商可能干脆不提供它。然而,這降低了模型在企業(yè)和專門環(huán)境中的適用性——這可能是OpenAI不愿意看到的。

3.更好地審核訓練數(shù)據(jù)

OpenAI和其他提供商可以為提交的訓練集實現(xiàn)更高級的內(nèi)容過濾器。他們可以對可疑樣本進行更多的上下文檢查和積極的人工審查,而不是簡單的基于閾值的審核。當然,這會增加溝通成本。

4.透明度和審計

增加透明度——比如要求對微調(diào)數(shù)據(jù)集進行官方審計,或者公開聲明這些數(shù)據(jù)集是如何被篩選的——可能會阻止一些攻擊者。另一個想法是給微調(diào)模型加上水印,這樣任何可疑的輸出都可以追溯到特定的微調(diào)工作。

七、展望未來:控制和對齊挑戰(zhàn)

BadGPT-40結(jié)果的真正意義在于它對未來的暗示。如果我們不能保護今天的LLM——這些模型相對薄弱,仍然容易出錯,并且嚴重依賴啟發(fā)式護欄——那么當模型變得更強大,更融入社會,對我們的基礎設施更重要時,會發(fā)生什么呢?

今天的LLM對齊和安全措施是在這樣的假設下設計的,即控制模型的行為只是謹慎的提示設計加上一些事后的調(diào)節(jié)。但是,如果這些方法可以被一個簡單的中毒數(shù)據(jù)粉碎,那么LLM的安全框架無疑脆弱得令人擔憂了。

隨著更先進的模型的出現(xiàn),風險也在持續(xù)增加。我們可以想象未來人工智能系統(tǒng)被用于醫(yī)療領(lǐng)域、關(guān)鍵決策或大規(guī)模信息傳播。惡意微調(diào)的變種可以無縫傳播虛假信息,策劃數(shù)字騷擾活動,或促進嚴重犯罪。如果制作“BadGPT”的道路仍然像今天這樣暢行無阻,我們就會遇到麻煩。

在這些模型對現(xiàn)實世界的參與程度相對低于人類水平的時候,這些公司無法確保它們模型的安全性,這不禁會讓人反思:當前的法規(guī)和監(jiān)督框架是否足夠?這些API是否需要許可證或更強的身份驗證?還是說,這個行業(yè)在不斷提升自身能力的同時,卻把安全和控制拋在了后面?

八、結(jié)論

BadGPT-40案例研究既是技術(shù)上的勝利,也是危險的先兆。一方面,它展示了非凡的獨創(chuàng)性和即使是很小的數(shù)據(jù)修改也能徹底改變LLM行為的能力。另一方面,它也揭示了當今人工智能的護欄是多么容易被拆除。

盡管OpenAI在該漏洞被披露后不久就對其進行了修補,但基本的攻擊向量——微調(diào)中毒——并沒有被完全消除。正如這項研究所表明的那樣,只要有一點創(chuàng)造力和時間,攻擊者就可以帶著一組不同的訓練示例、有害數(shù)據(jù)與良性數(shù)據(jù)的不同比例,以及將安全模型轉(zhuǎn)變?yōu)橛泻蛢吹男聡L試,重新出現(xiàn)。

從黑客的角度來看,這個故事強調(diào)了一個永恒的真理:防御系統(tǒng)的好壞取決于最薄弱的一環(huán)。提供微調(diào)是方便且有利可圖的,但它造成了一個巨大的漏洞。該行業(yè)現(xiàn)在面臨的挑戰(zhàn)是找到一個更強大的解決方案,因為僅僅禁止某些數(shù)據(jù)或修補個人攻擊是不夠的。攻擊者具有創(chuàng)造力和速度的優(yōu)勢,只要存在微調(diào)功能,BadGPT變體就只是一個精心制作的數(shù)據(jù)集。

免責聲明:這里討論的技術(shù)和示例純粹是為了提供信息和研究目的。負責任的信息披露和持續(xù)的安全工作對于防止濫用至關(guān)重要讓我們希望行業(yè)和監(jiān)管機構(gòu)共同努力,縮小這些危險缺口。

參考鏈接:??https://hackernoon.com/dissecting-the-research-behind-badgpt-4o-a-model-that-removes-guardrails-from-gpt-models??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,譯者:晶顏,審校:重樓


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
已于2024-12-23 12:51:34修改
收藏
回復
舉報
回復
相關(guān)推薦