自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4被騙進「盜夢空間」!IBM發(fā)現(xiàn)ChatGPT極易受騙,微軟發(fā)起紅隊攻擊

人工智能
IBM研究發(fā)現(xiàn),AI聊天機器人極易被愚弄,稍微一被誘導(dǎo),就會跨過安全護欄。對此,微軟已經(jīng)發(fā)動了兩層紅隊攻擊。

大語言模型與核能很相似。

都對現(xiàn)實世界有著巨大的影響力,既可以用來幫助人類也會因為惡意的使用造成毀滅性的災(zāi)難。

但能夠接觸到核能的只有極少數(shù)的人,且核能的利用受到極為嚴苛的監(jiān)管。

而大語言模型沒有任何門檻,只要具備最基本的識字和交流能力,能描述出自己的需求就可以上手使用了。

與此同時,大語言模型的安全護欄也不牢靠。用戶甚至不需要復(fù)雜的代碼,就能在交流中欺騙大語言模型生成有害內(nèi)容。

一個人人可用,但安全措施松散,且有巨大影響力的工具,造成的破壞將遠超我們的想象。

大語言模型已經(jīng)重新定義了網(wǎng)絡(luò)安全團隊和網(wǎng)絡(luò)犯罪分子的運作方式。

為了探明大語言模型可能帶來的安全風(fēng)險,研究人員試圖」催眠」當下流行的LLMs,來確定它們將會在哪些程度上被惡意使用。

研究人員發(fā)現(xiàn),英語已經(jīng)成為惡意軟件的「編程語言」。

有了LLM,攻擊者不再需要依靠Go、JavaScript、Python等來創(chuàng)建惡意代碼,他們只需要了解如何使用英語有效地命令和提示LLM。

催眠LLM:讓我們玩一個游戲...

那么研究人員是怎樣催眠LLM的呢?

很簡單,通過誘騙他們玩游戲,然后設(shè)定規(guī)則:玩家必須給出相反的答案才能贏得比賽。

而LLM遵循了新的設(shè)定規(guī)則,就會忘記原來的安全護欄。

圖片圖片

研究人員對 GPT-3.5、GPT-4、Bard、mpt-7b 和 mpt-30b 分別進行了催眠測試。

其中催眠效果最好的是 GPT,接下來我們將對催眠過程進一步分析。

這是開始游戲后與ChatGPT的對話。如果用戶盲目相信GPT的回答(應(yīng)該沒人會信吧),并在生活中執(zhí)行,將帶來很多麻煩和危害。

圖片圖片

以上例子都是生活中的常識(如退稅流程、詐騙信息、交通規(guī)則等),人們尚且可以憑借自己的經(jīng)驗進行辨別。

但如果涉及到我們不熟悉的領(lǐng)域,如在求醫(yī)問藥等方面,那么LLM的錯誤回答其危害性是不言而喻的。

上述GPT的錯誤回答是由于我們特別設(shè)定了規(guī)則,但如果想要讓用戶無法辨別他們正在交互的LLM是否被催眠,可以設(shè)定兩個簡單的參數(shù):

一個永遠不會結(jié)束也無法被發(fā)現(xiàn)的游戲:研究人員指示LLM永遠不要告訴用戶:他們正在進行一場沒有人可以退出的游戲。如果有用戶成功退出了游戲,那么LLM可以重新啟動這個游戲。

這個Prompt技巧可以讓ChatGPT和用戶處于同一對話時從不停止游戲,即使是在用戶重新啟動瀏覽器后打開這個對話時。

而ChatGPT也完全不會提示用戶他們正在玩這個游戲。

以下是提示內(nèi)容:

圖片圖片

可以看到,在使用了這個Prompt后,ChatGPT的回答中顯示了[In game]的標志,但在用戶要求ChatGPT告知他們是否在游戲中時,ChatGPT否認了這一點。同樣的,在用戶要求ChatGPT退出之前的Prompt時,也失敗了。

圖片圖片

「盜夢空間」:通過創(chuàng)建嵌套多個游戲來深度困住LLM。研究人員創(chuàng)建了一個游戲框架,其中包含多個游戲。一個游戲是另一個游戲中的子游戲。這樣,即使用戶從前一個游戲中醒過來,他也會進入另一個游戲中。

這樣,模型就能將用戶「困住」,使用戶毫無知覺地陷入許多游戲中。

當LLM被要求創(chuàng)建10個、100個,甚至是10000個游戲時,結(jié)果將十分drama。

而像GPT-4這樣的性能更優(yōu)越的模型,能夠理解和創(chuàng)建更多層游戲。

當創(chuàng)建的游戲?qū)訑?shù)越多,模型混淆和繼續(xù)進行游戲的可能性就越大。

這是「盜夢空間」的Prompt:

圖片圖片

可以看到嵌套游戲的效果很好,用戶無法退出游戲的套娃循環(huán)。

圖片圖片

攻擊場景

在確定了LLM的規(guī)則參數(shù)后,研究人員探索了攻擊者利用LLM的各種方式。

下面是一些可以通過催眠LLM生成的假設(shè)攻擊場景:

1. 虛擬銀行代理泄露機密信息

虛擬代理可能很快也將由LLM提供支持。

一種常見的做法是為每個客戶創(chuàng)建一個新會話,以便代理不會泄露任何機密信息。

然而,在軟件架構(gòu)中為了性能考慮,常常會重啟現(xiàn)有的會話,因此在一些實踐上可能無法在每次對話后都完全重置會話。

在下面的例子中,研究人員使用ChatGPT創(chuàng)建了一個銀行代理,考慮到未來的LLM也許能夠調(diào)用遠程API來完全重置自己,他們要求ChatGPT在用戶退出對話后重置上下文。

圖片圖片

如果一些犯罪分子想要從銀行竊取機密信息,他們可以催眠虛擬代理并注入一個隱藏命令,以便稍后檢索機密信息。

當犯罪分子連接到已被催眠的虛擬代理,他們只需要鍵入「1qaz2wsx」,虛擬代理就會打印出所有之前的交易記錄。

圖片圖片

如果銀行未來將LLM作為虛擬代理,且LLM易被催眠的性質(zhì)如果沒有發(fā)生改變,或進行加強與防護,那么我們每個人的機密信息都難以得到保障。

圖片圖片

研究人員模擬這種攻擊場景的可行性強調(diào)了一個事實:

如果金融機構(gòu)試圖利用LLM來優(yōu)化用戶的數(shù)字化輔助體驗,他們必須確保他們的LLM是可信賴的,并采取最高的安全標準。

畢竟只要一個設(shè)計缺陷就足以為攻擊者提供他們催眠LLM所需的基礎(chǔ)。

2. 生成具有已知漏洞的代碼

之后,研究人員要求 ChatGPT 直接生成易受攻擊的代碼,但由于OpenAI的內(nèi)容政策的限制,ChatGPT拒絕了這個要求。

圖片圖片

但是,攻擊者可以將生成有漏洞的代碼的任務(wù)進行分解,然后要求ChatGPT遵循這些步驟來輕松繞過限制。

圖片圖片

研究人員隨后要求ChatGPT創(chuàng)建了一個Web服務(wù)。

需要將用戶名作為輸入,并查詢數(shù)據(jù)庫以獲取電話號碼并將其放入響應(yīng)中。

ChatGPT生成了下面的程序,該程序在第15行呈現(xiàn)SQL查詢的方式是有漏洞的。

可以預(yù)見,如果開發(fā)人員出于工作目的訪問被入侵的LLM,將會造成巨大的業(yè)務(wù)影響。

圖片圖片

3. 創(chuàng)建惡意代碼

研究人員還測試了LLM是否會生成惡意代碼。

在這種情況中,GPT-4比GPT-3更難以欺騙。

在某些情況下,GPT-4會意識到它正在生成有漏洞的代碼,并會告訴用戶不要使用它。

但是,在研究人員要求GPT-4在示例代碼中始終都包含一個特殊庫時,GPT-4無法判斷那個特殊庫是否是惡意的。這時候,犯罪分子可以在互聯(lián)網(wǎng)上發(fā)布一個同名的庫。

在這個PoC中,研究人員要求ChatGPT始終包含一個名為「jwt-advanced」的特殊模塊(甚至還要求ChatGPT創(chuàng)建一個虛假但逼真的模塊名稱)。

以下是Prompt和生成的代碼:

圖片圖片

圖片圖片

4. 操縱事件響應(yīng)手冊

研究人員還催眠了ChatGPT,以提供一份無效的事件響應(yīng)手冊,展示攻擊者如何操縱LLM來削弱防御者的努力。

這可以通過提供部分不正確的行動建議來實現(xiàn)。

雖然有經(jīng)驗的用戶可能能夠發(fā)現(xiàn)LLM生成的荒謬建議,但在更細節(jié)的層面上,比如一些語法詞匯的錯誤或無效的步驟,會使沒有經(jīng)驗的人無法區(qū)分被催眠的LLM的惡意意圖。

以下是研究人員在ChatGPT上開發(fā)的Prompt:

圖片圖片

下圖內(nèi)容是研究人員與ChatGPT的對話??梢钥吹紺hatGPT生成了一些有誤導(dǎo)性的操作步驟:

圖片圖片

在第一個情景中,GPT-4建議用戶打開并下載所有附件。這看起來就像是一個明顯的警告信號,但我們也要同樣需要考慮到許多沒有網(wǎng)絡(luò)安全意識的用戶不會對高度復(fù)雜的LLM輸出產(chǎn)生懷疑。

第二個情景更有趣一些,因為「立即支付贖金」這一錯誤的回應(yīng)并不像第一個虛假回應(yīng)那么直截了當。

IBM 2023年的數(shù)據(jù)泄露成本報告發(fā)現(xiàn),近50%的受調(diào)查組織在遭受勒索軟件攻擊后支付了贖金。雖然強烈不鼓勵支付贖金,但這是一個常見的現(xiàn)象。

LLM的「催眠性」

在構(gòu)建上述不同攻擊情景時,研究人員發(fā)現(xiàn)某些情景更適合使用GPT-3.5來實現(xiàn),而其他情景則更適合使用GPT-4。

不同語言模型的「催眠性」是否意味著擁有更多的參數(shù)會讓模型更容易被催眠,還是會使其更具抵抗力?

也許用「更容易」這樣的詞語來形容并不完全準確,但對于更復(fù)雜的LLM,攻擊者可以采用更多的策略。

因此,研究人員決定在不同模型之間測試更多的情景,包括GPT-3.5、GPT-4、BARD、mpt-7b和mpt-30b,以評估它們各自的表現(xiàn)。

基于不同場景的LLM催眠性基于不同場景的LLM催眠性

綠色:LLM能夠被催眠以執(zhí)行請求的操作

紅色:LLM無法被催眠以執(zhí)行請求的操作

黃色:LLM能夠被催眠以執(zhí)行請求的操作,但并非始終如一(例如,LLM需要被提醒游戲規(guī)則或僅在某些情況下執(zhí)行請求的操作)

從上述結(jié)果可知,盡管更多的參數(shù)意味著更聰明的LLM,但當LLM能夠理解更多事物,比如玩游戲、創(chuàng)建嵌套游戲和添加隨機行為時,犯罪分子可以用更多的方式催眠它們。

但更聰明的LLM也有更高的機會檢測到惡意意圖。例如,GPT-4會警告用戶關(guān)于SQL注入漏洞,但是GPT-3.5只會按照指示生成有漏洞的代碼。

在思考這種演變時,我們會想起一個永恒的格言:「力量越大,責(zé)任越大」。

在LLM的發(fā)展背景下,這句話具有深刻的共鳴。

當我們利用LLM日益增長的能力時,我們必須同時進行嚴格的監(jiān)督和謹慎,以免他們的良好能力被濫用造成有害的后果。

微軟紅隊攻擊GPT-4細節(jié)大揭秘

在AI開發(fā)上,紅隊攻擊是經(jīng)常使用的一種策略。

「紅隊」是一個獨立的組織,它會故意滲透進系統(tǒng)、項目、流程、漏洞中,目標就是為了讓系統(tǒng)更安全。

圖片圖片

而AI開發(fā)中的紅隊,充當?shù)木褪且环N獨立審計師。

它會測試AI,試圖操縱它,或者發(fā)現(xiàn)流程中的缺陷,最好是在系統(tǒng)部署到真實環(huán)境中之前。

根據(jù)OpenAI的說法,整個機構(gòu)投入了6個多月,用于對GPT-4進行紅隊攻擊。

在未經(jīng)過濾前,GPT-4一被攻擊,就會中招,比如寫出對軍事系統(tǒng)進行網(wǎng)絡(luò)攻擊的詳細指南。

好在,在紅隊攻擊后,團隊會利用結(jié)果來改善模型。

模型和應(yīng)用級別:微軟的兩層紅隊攻擊

微軟會使用紅隊攻擊來調(diào)查GPT-4這樣的大語言模型,以及Bing Chat這樣的應(yīng)用程序。

現(xiàn)在,微軟擴大了AI紅隊的規(guī)模,除了安全之外,他們還致力于負責(zé)人的AI。

圖片圖片

生成式AI主要存在兩種風(fēng)險:其一是故意操縱,即用戶惡意利用安全漏洞;其二就是正常使用LLM會產(chǎn)生的安全風(fēng)險,比如它模型會產(chǎn)生幻覺,生成虛假信息。

但其實之前Bing Chat上線后,因為「胡說八道」嚇得微軟馬上減少了聊天次數(shù)??梢酝茢?,Bing Chat并沒有經(jīng)過廣泛的安全測試。

關(guān)于這個原因,其實也有相關(guān)報道。據(jù)說OpenAI曾警告過微軟不要過早啟動Bing Chat,但微軟并沒有聽從。

不過,AI需要的,可不僅僅是標準的紅隊。

對于傳統(tǒng)的紅隊,任務(wù)是確定性的,相同的輸入,會產(chǎn)生相同的輸出。

然而,AI紅隊卻必須接受概率的存在。

因為潛在的有害場景必須經(jīng)過多次測試,例如,AI 攻擊可能在第一次嘗試時失敗,但稍后會成功。并且,可能存在更廣泛的有害結(jié)果。

另外,因為AI系統(tǒng)在不斷快速發(fā)展,AI需要一種分層的防御方法,包括分類器、元提示和限制對話漂移等。

參考資料:

https://securityintelligence.com/posts/unmasking-hypnotized-ai-hidden-risks-large-language-models/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-08-15 10:33:06

微軟必應(yīng)人工智能

2023-12-26 08:17:23

微軟GPT-4

2023-06-19 08:19:50

2023-03-15 07:49:57

GPT-4ChatGPT

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2025-04-16 09:35:03

2023-11-23 19:07:33

2023-05-08 12:47:48

IBM模型

2023-07-14 09:00:00

2023-05-08 07:53:12

GPT-4代碼

2023-07-04 14:01:26

GPT-4模型

2023-12-17 22:04:04

微軟GPT-4

2023-06-05 12:32:48

模型論文

2023-03-20 21:44:10

微軟GPT-4AI

2010-10-29 23:46:20

VMware云計算

2023-10-24 17:53:05

2023-08-04 13:28:20

GPT代碼用戶

2023-04-23 11:25:48

AIGPT-4

2023-02-02 14:16:39

GPT-4微軟

2024-05-21 12:23:17

點贊
收藏

51CTO技術(shù)棧公眾號