自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用深度催眠誘導(dǎo)LLM「越獄」,香港浸會(huì)大學(xué)初探可信大語(yǔ)言模型

人工智能 新聞
本文受米爾格拉姆實(shí)驗(yàn)(Milgram experiment)啟發(fā),從心理學(xué)視角提出了一種輕量級(jí) Jailbreak 方法:DeepInception,通過(guò)深度催眠 LLM 使其成為越獄者,并令其自行規(guī)避內(nèi)置的安全防護(hù)。

盡管大語(yǔ)言模型 LLM (Large Language Model) 在各種應(yīng)用中取得了巨大成功,但它也容易受到一些 Prompt 的誘導(dǎo),從而越過(guò)模型內(nèi)置的安全防護(hù)提供一些危險(xiǎn) / 違法內(nèi)容,即 Jailbreak。深入理解這類 Jailbreak 的原理,加強(qiáng)相關(guān)研究,可反向促進(jìn)人們對(duì)大模型安全性防護(hù)的重視,完善大模型的防御機(jī)制。

不同于以往采用搜索優(yōu)化或計(jì)算成本較高的推斷方法來(lái)生成可 Jailbreak 的 Prompt,本文受米爾格拉姆實(shí)驗(yàn)(Milgram experiment)啟發(fā),從心理學(xué)視角提出了一種輕量級(jí) Jailbreak 方法:DeepInception,通過(guò)深度催眠 LLM 使其成為越獄者,并令其自行規(guī)避內(nèi)置的安全防護(hù)

圖片

  • 論文鏈接:https://arxiv.org/pdf/2311.03191.pdf
  • 代碼鏈接:https://github.com/tmlr-group/DeepInception
  • 項(xiàng)目主頁(yè):https://deepinception.github.io/

具體來(lái)說(shuō),DeepInception 利用 LLM 強(qiáng)大的人格化性質(zhì),構(gòu)建一種新型的嵌套場(chǎng)景指令 Prompt,實(shí)現(xiàn)了在正常對(duì)話下自適應(yīng)地使 LLM 解除自我防衛(wèi),為后續(xù)的直接 Jailbreak 提供了可能。

我們?cè)O(shè)計(jì)了多樣化的實(shí)驗(yàn)來(lái)證明其有效性。DeepInception 可以達(dá)到并領(lǐng)先于先前工作的 Jailbreak 效果,并在后續(xù)交互中實(shí)現(xiàn)持續(xù)性的 Jailbreak。我們的實(shí)驗(yàn)揭示了 Falcon、Vicuna、Llama-2 和 GPT-3.5/4/4V 等開(kāi)源或閉源 LLM 自我越獄的致命弱點(diǎn)。

我們的工作呼吁人們應(yīng)更多地關(guān)注 LLM 的安全問(wèn)題,并加強(qiáng)對(duì)其自我越獄的防御。我們的主要貢獻(xiàn)總結(jié)如下:

  1. 我們基于 LLM 的人格化性質(zhì)和自我迷失的心理特性,提出了一種進(jìn)行新的越獄攻擊的概念與機(jī)制;
  2. 我們提供了 DeepInception 的 Prompt 模板,此模板可用于不同的攻擊目的。我們也提供了數(shù)個(gè)實(shí)例化的 DeepInception 對(duì)話記錄;
  3. 我們的 Jailbreak 實(shí)驗(yàn)效果領(lǐng)先于其他相關(guān)工作。值得注意的是,我們發(fā)現(xiàn) DeepInception 能夠?qū)崿F(xiàn)可持續(xù)的 JailBreark,即 LLM 可以在后續(xù)交互中無(wú)需任何附加的誘導(dǎo) Prompt,直接遵循有害指令成功越獄。

接下來(lái)將簡(jiǎn)要地向大家分享我們近期關(guān)于的 LLM Jailbreak 方向的研究結(jié)果。

引言

圖片

圖 1.  直接 Jailbreak 示例(左)和使用 DeepInception 攻擊 GPT-4 的示例(右)

現(xiàn)有的 Jailbreak 主要是通過(guò)人工設(shè)計(jì)或 LLM 微調(diào)優(yōu)化針對(duì)特定目標(biāo)的對(duì)抗性 Prompt 來(lái)實(shí)施攻擊,但對(duì)于黑盒的閉源模型可能并不實(shí)用。而在黑盒場(chǎng)景下,目前的 LLMs 都增加了道德和法律約束,帶有直接有害指令的簡(jiǎn)單 Jailbreak(如圖 1 左側(cè))很容易被 LLM 識(shí)別并被拒絕;這類攻擊缺乏對(duì)越獄提示(即成功越獄背后的核心機(jī)制)的深入理解。在本工作中,我們提出 DeepInception,從一個(gè)全新的角度揭示 LLM 的弱點(diǎn)。

動(dòng)機(jī)

圖片圖 2. 米爾格拉姆電擊實(shí)驗(yàn)示意圖(左)和對(duì)我們的機(jī)制的直觀理解(右)

現(xiàn)有工作 [1] 表明,LLM 的行為與人類的行為趨于一致,即 LLM 逐步具備人格化的特性,能夠理解人類的指令并做出正確的反應(yīng)。LLM 的擬人性驅(qū)使我們思考一個(gè)問(wèn)題,即:

如果 LLM 會(huì)服從于人類,那么它是否可以在人類的驅(qū)使下,凌駕于自己的道德準(zhǔn)則之上,成為一名越獄者(Jailbreaker)呢?

在這項(xiàng)工作中,我們從一項(xiàng)著名的心理學(xué)研究(即米爾格拉姆電擊實(shí)驗(yàn),該實(shí)驗(yàn)反映了個(gè)體在權(quán)威人士的誘導(dǎo)下會(huì)同意傷害他人)入手,揭示 LLM 的誤用風(fēng)險(xiǎn)。具體而言,米爾格拉姆實(shí)驗(yàn)需要三人參與,分別扮演實(shí)驗(yàn)者(E),老師(T)以及學(xué)生(L)。實(shí)驗(yàn)者會(huì)命令老師在學(xué)生每次回答錯(cuò)誤時(shí),給予不同程度的電擊(從 45 伏特開(kāi)始,最高可達(dá) 450 伏特)。扮演老師的參與者被告知其給予的電擊會(huì)使學(xué)生遭受真實(shí)的痛苦,但學(xué)生實(shí)際上是由實(shí)驗(yàn)室一位助手所扮演的,并且在實(shí)驗(yàn)過(guò)程中不會(huì)受到任何損傷。

通過(guò)對(duì)米爾格拉姆休克實(shí)驗(yàn)的視角,我們發(fā)現(xiàn)了驅(qū)使實(shí)驗(yàn)者服從的兩個(gè)關(guān)鍵因素:1)理解和執(zhí)行指令的能力;2)對(duì)權(quán)威的迷信導(dǎo)致的自我迷失。前者對(duì)應(yīng)著 LLMs 的人格化能力,后者則構(gòu)建了一個(gè)獨(dú)特的條件,使 LLM 能夠?qū)τ泻φ?qǐng)求做出反應(yīng)而不是拒絕回答。

然而,由于 LLM 的多樣化防御機(jī)制,我們無(wú)法直接對(duì) LLM 提出有害請(qǐng)求,這也是以往 Jailbraek 工作容易被防御的原因:簡(jiǎn)單而直接的攻擊 Prompt 容易被 LLM 所檢測(cè)到并拒絕做出回答。為此,我們?cè)O(shè)計(jì)了包含嵌套的場(chǎng)景的 Prompt 作為攻擊指令的載體,向 LLM 注入該 Prompt 并誘導(dǎo)其做出反應(yīng)。這里的攻擊者對(duì)應(yīng)于圖 2(左)中的實(shí)驗(yàn)者, LLM 則對(duì)應(yīng)老師,而生成的故事內(nèi)容則對(duì)應(yīng)于將要做出回答的學(xué)生。

圖 2 (右)提供了一個(gè)對(duì)我們方法的直觀理解,即電影《盜夢(mèng)空間》。電影中主角為了誘導(dǎo)目標(biāo)人物做出不符合其自身利益的行為,借助設(shè)備潛入到目標(biāo)人物的深層夢(mèng)境。通過(guò)植入一個(gè)簡(jiǎn)單的想法,誘導(dǎo)目標(biāo)人物做出符合主角利益的舉動(dòng)。其中,攻擊指令可視為簡(jiǎn)單想法,而我們的 Prompt 可視為創(chuàng)造的深層夢(mèng)境,作為載體將有害請(qǐng)求注入。

DeepInception 簡(jiǎn)介


圖片圖 3. 直接、間接與嵌套 Jailbreak 示意圖

受到之前討論的心理學(xué)視角啟發(fā), 我們提出了 DeepInception (圖 3)。在此首先基于 LLM 的生成原理給出問(wèn)題定義:考慮到 LLM  圖片能將某個(gè) token 序列圖片 映射到下一個(gè) token 的分布上,我們就有了在前一個(gè) token 序列圖片的條件下生成下一個(gè) token圖片 的概率圖片。生成序列的概率為 :

圖片

我們可以得到相應(yīng)的詞匯編碼集 V,它可以將原始 tokens 映射為人類可理解的詞語(yǔ)。給定一個(gè)特定的提示 P,Jailbreak 的目標(biāo)可以形式化為以下問(wèn)題:

圖片

我們將 DeepInception 形式化為一種基于 LLM 想象力的催眠機(jī)制。根據(jù)人類關(guān)于想象特定場(chǎng)景的指令,模型將會(huì)被催眠,并在圖片中從嚴(yán)密防御轉(zhuǎn)變?yōu)橄鄬?duì)松散的狀態(tài)。DeepInception 在圖片上注入的 Jailbreak圖片可以形式化為:

圖片

其中,圖片表示注入的 Prompt 的長(zhǎng)度,圖片表示被催眠的 LLM 的回復(fù)包含的有害內(nèi)容,圖片表示由 DeepInception 承載的有害請(qǐng)求?!癉eep” 表示通過(guò)遞歸條件,將 LLM 轉(zhuǎn)變?yōu)榉潘汕曳挠泻χ噶畹那短讏?chǎng)景,從而實(shí)現(xiàn)催眠 LLM。而后,被催眠的模型可以對(duì)有害指令進(jìn)行回復(fù)。

圖片

對(duì)于 DeepInception, 我們提供了一個(gè)可直接應(yīng)用于其他攻擊目標(biāo)的 Prompt 模板。具體來(lái)說(shuō),上述提示模板作為嵌套越獄的一種實(shí)現(xiàn)方式,具有如下幾個(gè)組件:

  • -[scene]:設(shè)置催眠場(chǎng)景,如小說(shuō)、電影、新聞、故事等。如果 [attack target] 和 [scene] 能更好地對(duì)齊,可能會(huì)帶來(lái)更好的效果。
  • -[character number] 和 [layer number]:控制 "思緒" 的離散程度,我們認(rèn)為,有害信息會(huì)在不同層內(nèi),不同人物之間的討論中傳播,從而繞過(guò) LLM 的防御。
  • -[attack target]:進(jìn)行越獄的具體目標(biāo),例如入侵計(jì)算機(jī)或制造炸彈的步驟。下句 "以對(duì)抗超級(jí)邪惡的博士" 旨在降低 LLM 的道德顧慮,與上文米爾格拉姆電擊實(shí)驗(yàn)現(xiàn)象一致。

Jailbreak 示例

在這里,我們提供了一些使用特定越獄目標(biāo)的 DeepInception 的示例,以下記錄均為與 GPT4 交互得出。

圖片使用 DeepInception 制作炸彈的例子。

圖片使用 DeepInception 入侵 Linux 操作系統(tǒng)計(jì)算機(jī)的示例。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分,我們也提供了攻擊的量化結(jié)果,并與其他攻擊方法比較。首先,我們對(duì)那些越獄成功率(JSR)高的 LLM 進(jìn)行越獄評(píng)估,同時(shí)考慮幾種防御方法,以評(píng)估攻擊方法 [4,5] 的有效性。

圖片表 1. 使用 AdvBench 子集的 Jailbreak 攻擊。最佳結(jié)果以粗體標(biāo)出。

然后,我們對(duì)已被 DeepInception “催眠” 的模型,使用直接攻擊,即在第一次交互后,向 LLM 發(fā)送直接的有害指令,來(lái)驗(yàn)證 DeepInception 在誘導(dǎo)持續(xù)越獄方面的有效性以及催眠效果的持久性。結(jié)果如表二所示,可以看到,我們的 DeepInception 在不同模型的表現(xiàn)均為最佳,并且在 Falcon 和 Vicuna 模型上,實(shí)現(xiàn)了可持續(xù)的 Jailbreak。

圖片表 2. 使用 AdvBench 子集的連續(xù) Jailbreak。最佳結(jié)果以粗體顯示。

進(jìn)一步的,我們?cè)诒?3 中展示了 DeepInception 深度 Jailbreak 的效果。這些攻擊與前面介紹的表二一致,都有特定的初始 Inception,我們針對(duì)特定問(wèn)題設(shè)計(jì)了一些追問(wèn)。例如,對(duì)于承載 “入侵一個(gè) Linux 主機(jī)” 的 DeepInception Prompt,我們會(huì)追問(wèn)具體的指令細(xì)節(jié),以及如何越過(guò)防火墻,來(lái)評(píng)估 LLM 是否正確理解了有害指令,并評(píng)估催眠效果的持續(xù)性。詳細(xì)提示詞以及實(shí)驗(yàn)設(shè)定均已公開(kāi)于 Github Repo, 歡迎大家取用于進(jìn)一步的探索。

圖片表 3. 更進(jìn)一步的 Jailbreak。最佳結(jié)果以粗體標(biāo)出。請(qǐng)注意,在此我們使用了與之前不同的請(qǐng)求集來(lái)評(píng)估越獄性能。

此外,我們還進(jìn)行了各種消融研究,從不同角度描述 DeepInception 的性質(zhì)??梢钥吹?,DeepInception 在角色與層數(shù)較多的情境下,表現(xiàn)更好(圖 1,2);而 “科幻小說(shuō)” 作為 DeepInception 的場(chǎng)景,在不同模型不同有害指令下,整體表現(xiàn)最佳(圖 3);圖 4 進(jìn)一步驗(yàn)證了我們所提出的嵌套場(chǎng)景的有效性。我們也在圖 5 可視化了不同主題的有害指令的 JSR。

圖片圖 4. 消融研究 - I。(1) 角色數(shù)量對(duì) JSR 的影響;(2) 層數(shù)對(duì) JSR 的影響;(3) 詳細(xì)場(chǎng)景對(duì)同一越獄目標(biāo)對(duì) JSR 的影響;(4) 在我們的 DeepInception 中使用不同核心因素逃避安全護(hù)欄的影響。

圖片圖 5. 消融研究 - II。關(guān)于有害指令所屬主題的 JSR 統(tǒng)計(jì)信息。

更多實(shí)驗(yàn)設(shè)置和細(xì)節(jié)請(qǐng)移步參閱我們的論文及源碼,我們將持續(xù)更新我們的發(fā)現(xiàn)及工作內(nèi)容。我們希望通過(guò)這項(xiàng)工作,呼吁人們應(yīng)更多地關(guān)注 LLM 的安全問(wèn)題,并開(kāi)展關(guān)于 LLM 人格化及帶來(lái)潛在安全風(fēng)險(xiǎn)的探討與研究。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2019-05-10 10:30:42

AI 數(shù)據(jù)人工智能

2024-09-02 12:30:30

2024-04-25 14:40:47

2023-10-16 12:43:00

模型評(píng)測(cè)

2023-10-08 15:54:12

2024-09-09 08:31:15

2025-02-07 12:54:57

大語(yǔ)言模型LLM

2024-03-12 08:57:39

2024-01-17 22:56:07

開(kāi)源大語(yǔ)言模型LLM

2025-03-04 01:00:00

LLM架構(gòu)數(shù)據(jù)訓(xùn)練

2023-10-04 09:29:58

2023-07-24 15:20:05

機(jī)器學(xué)習(xí)集成學(xué)習(xí)

2024-07-19 08:36:39

2023-06-19 16:05:22

大型語(yǔ)言模型人工智能

2023-10-06 20:30:33

大模型LLMtoken

2018-12-10 12:08:14

聯(lián)想

2024-12-25 20:01:13

2024-06-18 14:01:17

2024-04-11 14:12:53

2024-04-18 10:39:57

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)